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شكر وتقدير 


عندما Gi‏ لبيتر إني أود أن أشكره على مساهمته في هذا الكتاب» اقترح Gle‏ الآتي: »3 أن 
أشكر بيتر هاربرء الذي لو لا استخدامه المتفاني للمدقق ق الإملائيء لكان هذا GUS‏ مف 
LS‏ أود أن أشكره على خبرته في إعداد القهوة» وما يتمتع به من حس الدعابة! هذا cacal‏ 
في حد ذاته» لا يُقدر بثمن» ولكنء ما فعله بيتر يفوق ذلك بكثيرء ولن أبالغ حين أقول إنه لولا 
تحفيزه المستمر ومساهماته البناءة» لم يكن لهذا الكتاب أن يرى النور. 
| دون هولمز 
byl‏ ۲۰۱۷ 


Me 


تندرج الكتب التي تتناول موضوع البيانات الضخمة ضمن أحد تصنيقين: إمّا أنها لا تقدّم Gi‏ 
شیرت ا :عمل فاك اشح Wy‏ أنها:تكون کا درا متخخصة كن مجال 
الرياضيات لا تصلح إلا لطلاب الدراسات العليا. يهدف هذا الكتاب إلى تقديم بديل عن طريق توفير 
وفي عالم الأعمال. 

كانت البيانات تعني في الماضي المستندات والأوراق» وربما بعض الصورء ولكنها أصبحت تعني 
الآن أكثر من ذلك بكثير. تنتج مواقع شبكات التواصل الاجتماعي كل دقيقة كمياتٍ كبيرةٌ من 
البيانات على هيئة صورء ومقاطع فيديوء وأفلام. ويُّنتج التسوّق عبر الإنترنت بياناتِ عندما ندخل 
عناويننا lili,‏ بطاقاتنا الائتمانية | ووصلنا Ga‏ إلى مرحلة أصبح فيها جمع البيانات وتخزينها 
يتطوّر على نحو لم نكن نتخيّله منذ بضعة عقود مضتء ولكن»ء كما سنرى في هذا الكتاب» فإن 
أساليب تحليل البيانات الجديدة تحوّل هذه البيانات إلى معلومات مفيدة. أثناء تأليف هذا الكتاب» تبين 
لي أنه لا يمكن مناقشة موضوع البيانات الضخمة على نحو مجدٍ من دون التطرق مرارًا وتكرارًا 
إلى عمليات جمعهاء وتخزينهاء وتحليلهاء» واستخدامها من قبل الشركات التجارية الكبرى. وبما أن 
laa‏ | اد في شركات على pop Je‏ وأمازون هي le a ge‏ مسئولية الكثير من 


ee een ay‏ الرقمي إلى 
Shae‏ فى SS Ss 48 js‏ تطرح البيانات الضخمة على نحو غير رسمي عبر فكرة 
انفجار البيانات» والتي 35 > تتضمن علوم الكمبيوترء وعلم الإحصاءء ونقاط الالتقاء بينهما. في الفصول 
من الثاني إلى الرابعء استخدمث الأشكال التخطيطية على نحو مكثف لمساعدتي في شرح بعض من 
الأساليب الجديدة التي تتطلبها البيانات الضخمة . ويتحدث an‏ الثاني عن أسباب تميز البيانات 
الضخمة» وهو ما يقودنا إلى Cay yt‏ أكثر تحديدًا لها. وفي الفصل الثالث» نناقش المشكلات المتعلقة 
ca ss‏ انات Jal s Medusa)‏ كا تدرك calel‏ القاس الحاحة الى الاحتفاظ Raus‏ احقاطية من 
البيانات على أجهزة الكمبيوتر الشخصية. ولكن» كيف نفعل ذلك مع الكميات الهائلة من البيانات التي 
يجري إنتاجها حاليًا؟ للإجابة عن هذا السؤال» سنتناول تخزين قواعد البيانات وفكرة توزيع المهام 
على مجموعات مترابطة من أجهزة الكمبيوتر. S‏ ل و اوم ياه 
تكون Bade‏ إلا إذا تمكنا من استخراج معلوماتٍ مفيدة منها. ونعطي iad‏ عن كيفية 85( البيانات 

إلى معلومات باستخدام شروح مبسّطة للعديد من الأساليب الراسخة. 


بعد ذلك ننتقل إلى مناقشة أكثر تفصيلا عن تطبيقات البيانات الضخمة؛ حيث نبدأ في الفصل الخامس 
بدور البيانات الضخمة في مجال الطب. ود يحلل الفصل السادس الممارسات التجارية باستخدام 
دراستي Aus‏ عن شركتي أمازون ونتفليكس» > تبرز كل منهما سمات مختلفة للتسويق باستخدام 


البيانات الضخمة. يتناول الفصل السابع بعض مشكلات الأمان التي تحيط بالبيانات الضخمة وأهمية 
التشفير. أصبحت سرقة البيانات مشكلة كبيرة» وسنتناول بعض القضايا التي تناولتها الصحفء بما 
فيها قضية سنودن وويكيليكس. eui,‏ الفصل, بتوضيح كيف أن جرائم الإنترنت أضحت من 
المشكلات التي css gs‏ على البيانات الضخمة حَلها. في الفصل الثامن والأخير» سنتناول كيف تُغيّر 
البيانات الضخمة المجتمع الذي نعيش فيه؛ وذلك من خلال إنشاء الروبوتات المتطوّرة ودورها في 
مكان العمل. ونختتم الكتاب بتناول المنازل الذكية والمدن الذكية المستقبلية. 


لا يمكن أن نستوفي في مقدمة قصيرة Nba‏ كل شيءٍ في هذا الصدد» ومن ثم» آمل أن يواصل القارئ 
مطالعة الموضوعات التي تهمه من خلال الاستعانة بالتوصيات التي أوردناها في جزء «قراءات 
إضافية». 


الفصل الأول 
انفجار البيانات 


ما البيانات؟ 


في عام £Y‏ قبل الميلاد» أعلنت أسبرطة الحرب على أثينا. يصف «jade gf‏ في روايته عن 
الحرب» كيف خططت القوات البلاتية المُحاصّرة الموالية Gell GAY‏ عن طريق تسلق الجدار 
المحيط ببلاتايا الذي بنته القوات البيلوبونيسية تحت القيادة الأسبرطية. ولكي يتمكنوا من ذلك» كانوا 
Ds sg‏ إلى معرفة ارتفاع الجدار حتى يصنعوا سلالم ذات طول مناسب. كانت أجزاء كثيرة من 
الجدار البيلوبونيسي مغطاة ¡ بالجص الخشن» > إلا eel‏ عثروا على جزء منه حيث كان الطوب JE X Y‏ 
ظاهرًا بوضوح» وكلف عدد كبير من الجنود بمهمة Xe‏ طبقات هذا الطوب المكشوف. كان العمل 
بمنأى آمن عن هجمات العدوء يقتضي Gia‏ وجود أخطاءء ولكن» كما يُوضّح ثيوسيديدز› مع التسليم 
بإجراء العد مرات عديدة» فإن النتيجة الأكثر تكرارًا ستكون هي الصحيحة. هذا العدد الأكثر 
تکر a‏ والذي سنطلق عليه الآن «المنوال»» استخدم بعد ذلك لحساب ارتفاع الجدار؛ فقد كان 
البيلوبونيسيون يعرفون حجم الطوب المحلي المستخدم» وصّنعت السلالم ذات الارتفاع المطلوب 
لتسلق الجدار . ومكن هذا قوة مؤلفة من عدة مئات من الرجال من الهرب» ويمكن اعتبار هذه الحادثة 
أكثر مثال Jail Cally‏ في كاريخ جسم UG‏ وتظيلها, ولكن» يرجع جمع البيانات» وتخزينهاء 
وتحليلها إلى ما قبل عصر ثيوسيديدز بقرون» كما سنرى لاحقا. 


mo وعظام» تعود إلى العصر الحجري القديم‎ e laal y علامات محفورة على عصي»‎ Cas 
ويُعتقد أن هذه الحزوز كانت بغرض تمثيل البيانات المُخزنة كعلامات إحصاءء ولكنء لا يزال هذا‎ 
إشانجوء التي عُثر عليها‎ Lake الاعتقاد مفتوحًا للنقاش الأكاديمي. ولعل أشهر مثال على ذلك هو‎ 
سنة. تعددت‎ cal Y. ويقدر عمرها بحوالي‎ ٥٥۰ في جمهورية الكونغو الديمقراطية عام‎ 
آخرون تفسير‎ déi حاسبة أو رزنامةء في حين‎ AD التفسيرات لهذه العظمة المحزّزة ما بين كونها‎ 
وجود العلامات عليها بأنها بغرض إحكام مسكها. عظمة ليبومبوء المكتشفة في سبعينيات القرن‎ 
سنة قبل الميلاد.‎ Call Yo العشرين في سوازيلاند» أقدم من سابقتها؛ حيث يرجع تاريخها إلى حوالي‎ 
تحتوي هذه الشظية من عظمة قرد البابون» على تسعة وعشرين خطا عرضيًا تشبه كثيرًا‎ 
s التقويم التي لا يزال شعب البوشمن يستخدمونها في أقاصي ناميبياء ما يدل على أنها ربما كانت‎ 
طريقة مستخدمة لمتابعة البيانات التي تهم حضارتهم.‎ 


على الرغم من أن تفسير هذه العظام المحززة لا يزال مفتوحًا للتخمين» فإننا نعلم أن أحد أول 
استخدامات البيانات الجيدة النوثيق كان الإحصاء السكاني الذي أجراه البابليون عام ل قبل 
الميلاد (s.‏ هذا الإحصاء السكاني بطريقة منهجية عدد السكان (Sie > cabal‏ الحليب والعسل؛ f‏ من 
أجل توفير المعلومات اللازمة لحساب الضرائب. استخدم المصريون القدماء UA‏ البيانات» في 


صورة GUUS‏ هيروغليفية على الخشب أو Gos‏ البردي؛ من أجل تسجيل تسليم البضائع ومتابعة 
الضرائب. ولكن» الأمثلة الأولى على استخدام البيانات ليست قاصرة» بأي حال من الأحوال» على 
أوروبا وأفريقيا. كان شعب الإنكاء ومّن سبقهم من شعوب أمريكا Ay gall‏ حريصين على تسجيل 
الإحصاءات لأغراض ضريبية وتجارية» واستخدموا نظامًا دقيقا ومعقدًا من الخيوط المعقودة 
«Asl‏ كانت كسم «كيبو»؛ ليكون بمثابة نظام محاسبة عشري. ترجع هذه الخيوط المعقودة 
المنسوجة من وبر J JAI‏ القطن Ad cj do P saa‏ إلى الألفية الثالثة قبل الميلاد» ومع أنه من 
المعروف أن إجمالي ما نجا من الغزو الإسباني وما تلاه من محاولات لطمس هذه الخيوط يقل عن 
ألف خيطء فإنها تعد من أوائل الأمثلة المعروفة على أنظمة تخزين البيانات العملاقة. يجري حاليًا 
تطوير خوارزميات الكمبيوتر في محاولة لتفسير المعنى الكامل لخيوط «الكيبو»» وتعزيز فهمنا 
لكيفية استخدامها قديمًا. 


على الرغم من إمكانية التفكير في هذه الأنظمة المبكرة ووصفها بأنها تستخدم البيانات» فإن كلمة 
Data‏ (أي بيانات) هي في الحقيقة صيغة جمع ذات أصل لاتيني» ومفردها uis. Datum‏ ما 

تستخدم كلمة Datum‏ في العصر الحالي؛ ومن ثمَّ تستخدم كلمة Data‏ تعبيرًا عن صيغتي المفرد 
والجمع. ينسب «قاموس أكسفورد الإنجليزي» أول استخدام معروف للكلمة إلى الكاهن الإنجليزي 
هنري هاموند خلال القرن السابع عشرء وكان ذلك في منشور ديني مثير للجدل نشر عام YUEN‏ 
استخدم هاموند في هذا المنشور عبارة «كومة من البيانات»» بمفهوم لاهوتي» في إشارة إلى 
الحقائق الدينية التي Y‏ تقبل الجدل. «oss‏ « على الرغم من أن هذا المنشور يبرز بوصفه أنه يمثل 
أول استخدام لكلمة «بيانات» في اللغة cA Xll‏ فإنه لا يتضمّن استخدامها بالمفهوم العصري 
الذي يعني الحقائق والأرقام المتعاقة بمجموعة معينة هي موضع اهتمام. تعود نشأة مصطلح 
«البيانات»» بمفهومه الحاليء إلى الثورة العلمية في القرن الثامن عشر بقيادة عمالقة المفكرين أمثال 
برريستلي» ونيوتن؛ ولافوازييه» وبحلول عام ۱۸٠۹‏ بعد أعمال علماء الرياضيات الأوائل» أرسى 
كل من جاوس ولابلاس أسمًا رياضية للغاية للمنهجية الإحصائية الحديثة. 


على مستوّى أكثر عملية» جُمعت كمية هائلة من البيانات خلال تفشي وباء الكوليرا عام VASE‏ في 
شارع برود بمدينة لندن» ما مكن الطبيب جون سنو من إعداد مخطط بياني عن حالة التفشي هذه. 
ees‏ و دي Posi ues oed qeu Se ee ducc‏ 
بالمرض كانوا يستخدمون جميعهم مضخة المياه العمومية نفسها؛ ومن ae‏ ف لعن Seca‏ 
عن الأبرشية بإغلاقهاء المهمة التي أنجزوها عن طريق إزالة مقبض المضخة. بعد ذلك» وضع سنو 
خريطة» صارت مشهورةً Úlla‏ تظهر أن المرض ظهر في مجموعات عنقودية مترابطة تحيط 
بمضخة برود ستريت. واصل سنو العمل في هذا الصددء حيث راح يجمع البيانات ويحللهاء واشتهر 
بكونه أحد اختصاصيي الأوبئة الرواد. 


بعد البحث الذي قدّمه جون سنوء تزايد استخدام اختصاصيي الأوبئة وعلماء الاجتماع للبيانات 
الديموجرافية اللازمة للأغراض البحثية» وأثبت الإحصاء السكاني الذي أصبح NI Gos‏ في 
الكثير من الدول أنه مصدر مفيد لهذه المعلومات. على سبيل المتالء تجمَّع الآن كل البيانات الخاصة 
بمعدلات المواليد والوفيّات» وتكرار الإصابة بمختلف الأمراض» وإحصاءات الدخل والجريمة» ولم 


عشرة al sel‏ في أغلب «calda icd. n ocu‏ 
c‏ يمكن تسجيله باليد أو بأجهزة الإحصاء البسيطة التي كانت مستخدمة سابقا. تمّ التصدي جزئيًا 


لتحدي معالجة هذه الكميات المتزايدة من بيانات الإحصاء السكاني من قبل هيرمان هوليريث أثناء 
عمله في مكتب تعداد الولايات المتحدة. 


بحلول موعد التعداد الأمريكي eYAN« all‏ أصبحت أجهزة إحصاء بسيطة قيد الاستخدام» إلا أن 
هذا لم Bis}‏ إلا lai‏ محدودا في تقليل كم العمل الذي يؤديه مكتب التعداد. ولكن حدثت طفرة 
جاءت في أوانها قبل تعداد عام ۰ عندما CUN‏ آلة تبويب البطاقات iil‏ الى اخترعها 
هيرمان هوليريث لتصنيف البيانات ومعالجتها. كانت معالجة بيانات التعداد الأمريكى تستغرق فى 
المعتاد ثماني سنوات» ولكنء باستخدام هذا الاختراع الجديد تقلصت هذه الفترة إلى سنة واحدة. 
وهكذاء أحدثت آلة هوليريث ثورة في تحليل بيانات التعداد السكاني في جميع بلدان العالم» بما في 
ذلك ألمانياء وروسياء والنرويج» وكوبا. 


بعد ذلك» باع هوليريث آلته إلى الشركة التي تطوّرت ty Led‏ لتصبح شركة آي بي cal‏ والتي 
Lad yb‏ تعد و Alala cas‏ وة الانتشار من آلات البطاقات المثقبة . عام 19149 عين عين المعهد 
الأمريكي للمعايير الوطنية كود هوليريث للبطاقات المثقبة (أو كود بطاقات هوليريث) بوصفه 
مارا a yl el Ua S‏ على كار انه dl jV Xia‏ في سهال البطاقات Ail‏ 


البيانات في العصر الرقمي 


قبل استخدام أجهزة الكمبيوتر على نطاق واسع» كانت بيانات التعداد السكاني» أو التجارب العلميةء 
أو استطلاعات رأي واستبيانات العينات المصمّمة des‏ کل E‏ العملية الي كانت 
تستهلك الكثير من الوقت والمال. لم يكن جمع البيانات يبدأ إلا بعدما يُقرّر الباحثون الأسئلة التي 
يريدون أن تجيب عنها تجاربهم أو استطلاعاتهم؛ ومن eS‏ يمكن التعامل بسهولة مع البيانات الناتجة 
المهيكلة للغاية» المدرّنة على الورق في صفوف وأعمدة مرتبة» باستخدام طرق التحليل الإحصائي 
التقليدية. بحلول النصف الأول من القرن العشرين» خزنت بعض البيانات على أجهزة الكمبيوتر؛ ما 
ساعد في تخفيف جزء من هذا العمل الذي يتطلب الكثير من الأيدي العاملة» ولكن» بإطلاق شبكة 
الإنترنت العالمية (الويب) عام ۸٩‏ وتطوّرها السريع» زادت إمكانية إنتاج» وجمع»› وتخزين» 
وتحليل البيانات إلكترونيًا. بعد ذلك» ظهرت كه PTT‏ 
eae‏ ات البيانات المختلفة. 


يمكن تصنيف البيانات التي نستخرجها من شبكة الويب إلى بيانات هيكلية» أو غير هيكلية» أو شبه 


أصبحت حاليًا البيانات الهيكلية» من النوع المكتوب يدوا والمحفوظ في دفاتر أو في خزانات 
الملفات» تخزن إلكترونيًا في جداول بيانات أو sel ji‏ بيانات» وتتكوّن من جداول منسقة على Aja‏ 
جداول بيانات تتضمّن صفوفا وأعمدة» كل صف يمثل Dia‏ 5 وكل عمود يمثل حقلا محدّدا (مثل 
الاسم» أو العنوان» أو السن). نحن نسهم في مخازن البيانات الهيكلية هذه عندما ندخل» على سبيل 
c JÈ‏ المعلومات الضرورية لطلب سلعة ما عبر الإنترنت. إن البيانات الهيكلية والمجدولة بعناية 

من السهل نسبيًا إدارتهاء وتكون قابلة للتحليل الإحصائي؛ ذلك أنه حتى وقت قريب لم يكن من 
الممكن تطبيق أساليب التحليل الإحصائي إلا على البيانات الهيكلية. 


على النقيض من ذلكء البيانات غير الهيكلية ليس من السهل تصنيفها؛ وتحتوي على صورء ومقاطع 
فيديو» وتغريدات» ومستندات معالجة نصوص. بمجرد انتشار استخدام شبكة الإنترنت العالمية» تبين 
أن عددًا كبيرًا من مصادر المعلومات المحتملة ظل الوصول إليها متعذرًا؛ لأنها افتقدت البيكلة 
المطلوبة لتطبيق أساليب التحليل القائمة . ولكکن› من خلال تحديد السمات الرئيسية» يتضصح أن 
البيانات التي تبدو للوهلة الأولى غير هيكلية قد لا تكون من دون هيكلة على الإطلاق. تحتوي 
رسائل البريد الإلكتروني» على سبيل المثال» على «بيانات تعريف» هيكلية في العنوان الرئيسي» 
ولكن الرسالة الفعلية غير الهيكلية توجد في نص الرسالة؛ ومن E‏ يمكن تصنيفها على أنها بيانات 
شبه هيكلية . يمكن استخدام علامات بيانات التعريف› وهي في الأساس إشارات وصفية» لإضافة 

بعض الهيكلة إلى البيانات غير الهيكلية. إن إضافة كلمة وصفية إلى صورة على موقع إلكتروني 
ا nT‏ ل ede‏ توجد البيانات شبه الهيكلية أيضًا في مواقع 
شبعات التواصل الاجتماعي التي تستخدم الوسوم حتى يمكن تحديد الرسائل (التي هي بيانات غير 
هيكلية) عن موضوع مُعين. إن التعامل مع البيانات غير الهيكلية أمر صعب؛ بما أنه لا يمكن 
تخزينها في قواعد أو جداول البيانات التقليدية» فلا بد من تطوير أدوات خاصة لاستخراج معلومات 
Bake‏ متها فى الفصول Lin ASN‏ كف op AS‏ اتات عر لمكا 


يشير مصطلح «انفجار البيانات»» عنو ان هذا الفصل» إلى الكم الهائل المتزايد من البيانات الهيكلية؛ 
وغير t‏ ونه الهيكلية التي تنتج كل دقيقة» وسنتناول yai cya ias Tas‏ الكثيرة 
المختلفة التي eii‏ كل هذه البيانات. 


PRACA ENEE Lake 


أثناء بحثي عن المادة التي سأستخدمها في هذا الكتاب» غمرت ASI‏ غير المحدود من البيانات 
المتوافرة على شبكة الإنترنت — من المواقع الإلكترونية» والمجلات العلمية» والكتب الدراسية 
الإلكترونية. طبقا لدراسة عالمية حديثة أجرتها شركة آي بي cal‏ حوالي ٠,١‏ إكسابايت من البيانات 

تنتج كل يوم. الإكسابايت الواحد يساوي ١5١١‏ (واحدًا متبوعًا بثمانية عشر صفرًا) Cul‏ (أو مليون 
تيرابايت؛ انظر جدول الحجم بالبايت في نهاية هذا الكتاب). إذا اشتريت كمبيوترًا محمولا ae‏ في 
وقت تأليف هذا الكتاب» فإنه سيحتوي Sale‏ على قرص صلب سعته التخزينية واحد أو اثنان 


تيرابايت. في البداية» أشار مصطلح «البيانات الضخمة» إلى الكميات الكبيرة للغاية من البيانات 
iA‏ تنتج في العصر الرقمي. وتشمل تلك الكميات الهائلة من البيانات» سواءٌ كانت هيكلية أو غير 
ades cilia‏ ات شبكة الإنترنت الذائهة ecg JS aod diua) oe‏ والمواقم ارک د 
ومواقع شبكات التو اصل الاجتماعي. 


حوالي ٠١‏ بالمائة من بيانات العالم عبارة عن بيانات غير هيكلية في هيئة نصوص وصور؛ ومن 
ثم فإنه لا يمكن التعامل معها باستخدام أساليب تحليل البيانات الهيكلية التقليدية عليها. لم يعد 
مصطلح «البيانات الضخمة» يُستخدم AEN‏ للإشارة إلى إجمالي كمية البيانات الناتجة تجة والمخزّنة 
إلكترونيًا فحسب» بل أصبح يشير أيضًا إلى مجموعات البيانات الكبيرة من حيث الحجم والتعقيدء 
والتي تتطلب أساليب خوارزمية جديدة لاستخراج معلومات مفيدة منها. تأتي مجموعات البيانات 
الكبيرة هذه من مصادر مختلفة؛ lal,‏ دعونا نتناول بعضها بمزيد من التفصيل» وكذلك البيانات التي 


بيانات محرّكات البحث 


Nie day allel) pla فيحنت‎ ENN عرف العف عو عن‎ age oca 58 als 
بحث بينج التابع لشركة مايكروسوفت ومحرك بحث ياهو سيرش في المركزين الثاني والثالث» على‎ 
أحدث عام كانت فيه البيانات متاحة للجمهورء بلغ حجم عمليات البحث التي‎ VY الترتيب. عام‎ 

on‏ فى cle‏ كز dic Us Yo qe ayy Levan 5 eg Cina‏ نكت ا 


يترتب على إدخال كلمة أساسية ما في محرك البحث عرض قائمة بالمواقع الإلكترونية الأكثر صلةء 
ولكن» » في الوقت نفسه» gagi‏ كمية كبيرة من البيانات. ينتج التعقب على شبكة الويب Cts‏ ضخمة. 
وكتدريب على ذلك» بحثت عن «سلالة كلاب بوردر كولي»» ونقرت على الموقع الإلكتروني الأول 
في نتائج البحث. وباستخدام أحد برامج التعقب البسيطة» وجدث أنه جرى إنشاء روابط إلى حوالي 
۷ موقعًا آخر بمجرد النقر على هذا الموقع الإلكتروني. ومن أجل تعقب اهتمامات الأشخاص الذين 
تصفحوا هذا cad gall‏ تجري مشاركة المعلومات على هذا النحو بين الشركات التجارية. 


كلما استخدمنا أحد GIS jae‏ البحث» أنشئت سجلاتٌ مهمتها تسجيل المواقع uem gall‏ بها التي 
زرناها. وتحتوي هذه السجلات على معلومات مفيدة على غرار الكلمة المستعلم عنها نفسهاء 
وعنوان آي a‏ للجهاز المستخدم» ووقت إرسال الاستعلام» والمدة التي قضيناها في كل «esa‏ 
وترتيب زيارتنا لهذه المواقع — كل ذلك من دون الكشف عن هوياتنا. B dle‏ على ذلك» Saud‏ 
«سجلات تدفق النقر» المسار الذي سلكناه عند زيارتنا لمختلف المواقع الإلكترونيةء وكذلك تصفحنا 
لكل موقع. عندما نتصفح شبكة JES cce dl‏ كل نقرة ننقرها في مكان ما لاستخدامها في المستقبل. 
البرامج المتوافرة للشركات تمكنها من جمع بيانات تدفق النقر التي تنتجها مواقعها الإلكترونية ‏ 
andi‏ هذه SEY Ga gud sll‏ مشن على سبيل المثال» يمكن أن تساعد السجلات من خلال ما 
تقدّمه من بيانات عن النظام ‏ في اكتشاف ALG)‏ الضارة مثل سرقة الهُوية. LS‏ يمكن استخدام 


السجلات في قياس مدى فاعلية الدعاية عبر الإنترنت» وذلك بصفة أساسية عن طريق de‏ مرات 
النقر على الإعلانات من قبل زائري الموقع الإلكتروني. 


من خلال تفعيل تحديد Aj gà‏ العميل» > تُستخدم ملفات تعريف الارتباط لإضفاء طابع شخصي على 
و عندما تزور للمرة الأولى موقعًا إلكترونيًا من اختيارك» Sie pre‏ «ملف تعريف 
ارتباط»» وهو عبارة عن ملف نصي صغير يحتوي عادة على مُعرّف للموقع الإلكتروني ومُعرّف 
للمستخدم» إلى جهاز الكمبيوتر لديك» إلا إذا حظرت استخدام ملفات تعريف الارتباط. وفي كل مرة 
نزور هذا الموقع الإلكتروني» Qs à‏ ملف تعريف الارتباط رسالة إلى الموقع الإلكتروني» وبهذه 
الطريقة يظل يتعقب زياراتك. LS,‏ سنرى في الفصل السادس» تستخدم ملفات تعريف الارتباط في 
تسجيل بيانات تدفق النقر» أو تعقب تفضيلاتك» أو إضافة اسمك إلى الإعلانات المستهدفة. 

ci‏ مواقع شبكات التواصل الاجتماعي أيضًا كميات كبيرةً من البيانات» وفي هذا الصدد يأتي كل 
من فيسبوك وتويتر على رأس القائمة. بحلول منتصف عام CY «Y‏ بلغ عدد مستخدمي فيسبوك» في 
o‏ ابيتابايت (أو 050٠‏ ٠تيرابايت)‏ من بيانات سجلات الويب يوميًا. كان لموقع يوتيوب» موقع 
مشاركة مقاطع الفيديو الشهيرء > تأثيرٌ كبير منذ إطلاقه عام ٠۲٠۰١‏ ويزعم بيان صحفي حديث عن 
يوتيوب أن عدد مستخدميه قد تجاوز المليار مستخدم في جميع أنحاء العالم. يمكن استخدام البيانات 
القيّمة الناتجة عن محركات البحث ومواقع شبكات التواصل الاجتماعي في مجالاتِ أخرى TEN‏ 
على سبيل المثال» عند التعامل مع المشكلات الصحية. 


Ail dle yl culis 


إذا تناولنا الرعاية الصحيةء » فسنجد أننا بصدد مجال يتضمّن نسبة كبيرة ومتزايدة من سكان العالم 
وهو آخذ في التحؤل إلى نظام الحوسبة. تتحوّل السجلات الصحية الإلكترونية تدريجيًا لتصبح النظام 
المعتمد في المستشفيات وعيادات ce ull‏ والهدف الأساسي من ذلك هو تسهيل مشاركة بيانات 
المرضى مع مستشفيات وأطباء آخرين؛ ومن ثم تيسير توفير رعاية صحية أفضل. يتزايد جمع 
البيانات الشخصية عبر أجهزة الاستشعار القابلة للارتداء أو الزرع» لا سيّما فيما يتعلق بالمتابعة 
ج ue mirus‏ يد بتكيو Magid i al‏ اللياقة البدنية (ed ee)‏ 
ادت MN Tb HE‏ ا X‏ 
الذي ربما يقلل من تكاليف الرعاية الصحية ويحسّن من جودة الحياة. تزداد أجهزة المتابعة عن بُعد 
es: pes‏ بعد يوم» وأصبحت الآن تتخطى القياسات الأساسية لتشمل متابعة النوم ومُعدّل 
تشبّع الشرايين بالأكسجين. 


تقذّم بعض الشركات عوامل تحفيز لإقناع الموظفين باستخدام أجهزة اللياقة البدنية القابلة cel OU‏ 
وتحقيق أهداف معينة مثل خسارة الوزن أو السير لعدد محدد من الخطوات كل يوم. وفي مقابل 


الحصول على الجهازء يوافق Cab gall‏ على مشاركة البيانات مع صاحب العمل. قد يبدو هذا الأمر 
منطقيّاء ولكن ستنشأ Gia‏ مشكلاتٌ تتعلق بالخصوصية لا بد من وضعها في الاعتبارء بالإضافة إلى 
الضغط غير المستحب الذي قد يشعر به البعض جراء الاشتراك في هذا النظام. 


أصبحنا نرى بصورة متزايدة أشكالا أخرى من متابعة الموظفين» مثل 5 e “i‏ جميع أنشطة الموظفين 
على أجهزة الكمبيوتر والهواتف الذكية التي توفرها الشركة. وباستخدام يرامج مخصّصة:؛ يمكن أن 
تشمل هذه المتابعة كل شيء» بدءًا من متابعة المواقع الإلكترونية التي يجري تصفحهاء ووصولا إلى 
تسجيل عدد مرات الضغط على المفاتيح لكل موظف» والتحقق مما إذا كان الحاسوب يُستخدم 
لأغراض شخصية مثل تصفح مواقع شبكات التواصل الاجتماعي. في عصر التسريبات الهائلة 
للبيانات» أصبح GLY!‏ هاجسًا متزايد الأهمية» ومن A‏ أصبح من الضروري حماية البيانات 
المؤسسية. وفي النهاية» فإن مراقبة رسائل البريد الإلكتروني وتتبّع المواقع الإلكترونية التي جرت 
زيارتها مجرد طريقتين للحد من سرقة المواد الحساسة. 


رأينا بالفعل أنه يمكن استخراج البيانات الصحية الشخصية من أجهزة الاستشعارء مثل أجهزة 
متابعة اللياقة البدنية أو أجهزة متابعة الحالة الصحية. ولكن» الكثير من البيانات التي تجمع من 
EN‏ ا EC RCT CR Ne‏ اشن اط ال لحه إن بعضًا من أكبر مخازن 
البيانات الموجودة يجري إنشاؤه بالتزامن مع دراسة الباحثين لجينات العديد من Ti‏ وتسلسل 
الجينوم لديها. شرحت بنية جزيء الحمض النووي (دي إن إيه)» الذي يشتهر باحتوائه على 
التعليمات الوراثية اللازمة لحياة الكائنات الحية» للمرة الأولى بوصفه حلزوتا مزدوجًا من قبل 
جيمس واتسون وفرانسيس كريك عام VION‏ كان مشروع الجينوم البشري الدولي أحد أكثر 
المشروعات البحئية انتشارًا في السنوات الأخيرة» والذي يحدد التسلسل» أو الترتيب الدقيق» )4244 
مليارات زوع من gill se gill‏ كر ن متها الجمطن اوي ري iG aay‏ للا fica‏ 


البيانات في الوقت الحقيقي 


تجمَع بعض البيانات» وتُعالج» وتُستخدم في الوقت الحقيقي. سمحت زيادة قوة المعالجة الحاسوبية 
بزيادة القدرة على معالجة هذه البيانات وإنتاجها بسرعة. يحمل زمن الاستجابة فى هذه الأنظمة 
أهمية كبيرة؛ ومن ثم يجب معالجة البيانات بصورة آنية. على سبيل المثال؛ يستخدم نظام تحديد 
البيانات في الوقت Mm‏ ومن cai‏ تعالج أجهزة EY‏ نظام تحديد المواقع ‘galas‏ والتي قد 
تكون في سيارتك أو Agila‏ الذكي («ذكي» هنا تشير إلى أن جهازًا cla‏ هائفا في هذه الحالةء له 
القدرة على الوصول إلى شبكة الإنترنت وتقديم عدد من الخدمات أو التطبيقات التي يمكن ربطها 
معًا)» إشارات الأقمار الصناعية هذه وتحسب موقعكء وتوقيتك» وسرعتك. 


أصبحت هذه التكنولوجيا مُستخدمة GV)‏ في تطوير السيارات التي من دون سائق أو الذاتية القيادة. 
وهذه التكنولوجيا مستخدمة بالفعل في مناطق محددة ومتخصصة مثل المصانع والمزارع» 
وتطوّرت على يد Me‏ من OUS‏ المصتعين : بما في ذلك شركات c gil à‏ وتسلاء ونيسان. أجهزة 
الاستشعار وبرامج الكمبيوتر المشاركة في هذه التكنولوجيا تعمل على معالجة البيانات في الوقت 
الحقيقي»› حتى AR‏ السيارة بصورة يُعتمد عليها إلى وج تك» وتتحكم في حركتها بالنسبة إلى 
مستخدمي الطريق الآخرين. cally‏ هدا ias lay‏ لخر انط als Sd LAD‏ لطر ى نك اميا CM‏ 
أجهزة الاستشعار لا يمكنها التعامل مع الطرق غير الظاهرة على الخرائط. تستخدم أجهزة 
الاستشعار الرادارية لمتابعة حركة المرور للسيارات الأخرىء وترسل البيانات إلى كمبيوتر تنفيذي 
مركزي خارجي يتحكم في السيارة. ويجب برمجة أجهزة الاستشعار على رصد الأشكال والتمييزء 
على سبيل المثال» بين طفل يعدو عابرا الطريق وجريدة تطير عبره؛ أو رصدء مثلاء مخطط لخط 
السير في حالات الطوارئ بعد وقوع حادث. ولكنء هذه السيارات لا يمكنها بعد الاستجابة بالشكل 
المناسب لجميع المشكلات التي تفرضها البيئة الدائمة التغيّر المحيطة بها. 


وقع حادث التصادم المميت الأول الذي تضمّن سيار $ ذاتية القيادة عام 1 عندما لم يبد السائق 
البشري أو الآلي استجابة تجاه اعتراض سيارة أخرى طريق هذه السيارة» بمعنى أن Legis Gi‏ لم 
يضغط على مكابح السيارة استجابة لذلك . أشارت شركة تسلا المصتعة للسيارة الذاتية القيادة» في 
خبر صحفي في يونيو عام Ye‏ إلى «الملابسات الشديدة QU $ jail‏ أحاطت بحادث التصادم». 
ais‏ نظام القيادة الآلية السائقين إلى أن يُبقوا أيديهم على مقود السيارة طوال الوقت» بل إنه يتحقق 
حتى من أنهم يفعلون ذلك. صرّحت شركة تسلا بأن هذا الحادث هو حادث التصادم المميت الأول 
٠١ eee n pn‏ مليون ميل من القيادة» مقارنة بحادث مميت 
واحد كل 15 مليون ميل تتسبّب فيه القيادة العادية غير الآلية في الولايات المتحدة. 


تشير التقديرات إلى أن كل سيارة ذاتية القيادة ستنتج في المتوسط ٠‏ "تيرابايت من البيانات يوميّاء 
ويجب معالجة الكثير منها في الوقت الحقيقي تقريبًا. dal‏ مجال بحثي جديدء يُدعَى «تحليلات تدفق 
البيانات»» وهو يتخطى الطرق التقليدية للإحصاء ومعالجة البيانات» فى تقديمه و لحل هذه 
المشكلة المتعلفة والبيانات Jia dad]‏ 1 


البيانات الفلكية 


في شهر أبريل ٠٠٠٠٤‏ قدر تقرير أعدّته مؤسسة البيانات الدولية أنه بحلول عام Ye Ve‏ سيصل 

ess‏ الكون. الرقمي. إلى ٤٤‏ تريليون جيجابايت (الجيجابايت الواحد يساوي ۰ ميجابايت)؛ أي 
٠ ES‏ أضعاف حجمه عام YOY‏ ثمة BS‏ متزايدٌ من البيانات تنتجه التلسكوبات. (OR‏ 
المثال» التلسكوب ,الكبير جدًا في تشيلي» وهو عبارة عن تلسكوب ضوئي يتكوّن bà‏ من أربعة 
تلسكوبات» ينتج كل منها LS‏ هائلا من البيانات — o‏ ١تيرابايت‏ كل ليلةء وهذا GS‏ البيانات الإجمالي 
في الليلة الواحدة. aay‏ هذا التلسكوب حجر الأساس لمشروع المسح الشامل الكبير» وهو مشروع 


يمتد لعشر سنوات ينتج بصورة متكرّرة خرائط لسماء الليل» ويُقدّر أنه eina‏ إجمالي ١٠بيتابايت‏ 
(الأصوات المُعطاة لكل صفحة Y‏ ”بايت) من البيانات. 


يوجد تلسكوبٌ أكير من حيث إنتاج البيانات» وهو التلسكوب الراديوي «مصفوفة الكيلومتر المربع 
باثفيندر»» الذي أنشئ في أستراليا وجنوب أفريقياء وبدأ العمل به عام BI Y VA‏ هذا التلسكوب 
٠‏ ١تيرابايت‏ من البيانات الخا مكل ثانية في بداية عمله» وازداد هذا الكم مع اكتمال مراحله التالية. 


إن تخرن جميع هذه لات بر eee‏ الحاجة إلى أجهزة كمبيوتر خارقة في جميع أنحاء العالم 
لتحليل البيانات المتبقية. 


ve ad‏ كل هذه البيانات؟ 


ies‏ الشخصية oe lai, SI‏ لدفع في المناجر تجمع iy‏ عتا تشتريه؛ وشركات 


الطيران تجمع معلوماتِ عن ترتيبات أسفارنا عندما نشتري تذكرة؛ والبنوك تج تجمع بياناتنا المالية. 
تستخدم البيانات dada‏ عن كحو :مكلك في الكحازة والطت > Clashes Ugly‏ في القافون» ele y‏ 
الاجتماع» والتسويق» والصحة العامة وجميع فروع العلوم الطبيعية. للبيانات» بجميع صورهاء 
jl‏ 5 على end‏ ثروة من المعلومات المفيدة إذا ما تمكنا من ابتكار طرق لاستخراج تلك 
المعلومات. إن الأساليب الجديدة التي تمزج بين طرق الإحصاء التقليدية وعلوم الكمبيوتر تزيد من 
إمكانية التطبيق العملي لتحليل مجموعات البيانات الضخمة cala‏ هذه الأساليب والخوارزميات 
على c2‏ إحصائيين وعلماء كمبيوتر يبحثون عن أنماط متكرّرة في البيانات. axi,‏ تحديد الأنماط 
الموعة ee) OS) Os Sc aC‏ كما أن التغيرات التي جلبها العصر الرقمي 
غيّرت إلى حد كبير طرق جمع البيانات» وتخزينهاء وتحليلها. ومنحتنا ثورة البيانات الضخمة 
السيارات الذكية واجهزة Aj al Xl al‏ 


gi‏ عن القدرة على جمع البيانات إلكترونيًا ظهور مجال علم البيانات المثيرء الذي يجمع بين مجالي 
الإحصاء وعلوم الكمبيوتر؛ من أجل تحليل هذه الكميات الكبيرة من البيانات لاكتشاف معارف 
جديدة في مجالات التطبيق المتعدّدة الاختصاصات. إن الهدف المطلق للعمل على البيانات الضخمة 
هو استخراج ج المعلومات المفيدة. وأصبح اتخاذ القرارات في الشركات يعتمد على نحو متزايد على 
اوماق اله من البيانات الضخمة» ومن المتوقع أن يزداد الاعتماد عليها أكثر في 
المستقبل. ولكن» ثمة مشكلات كبيرة» لا سيّما في ظل قلة are‏ علماء البيانات المُدرّبين القادرين 


على تطوير الأنظمة اللازمة لاستخراج ج المعلومات المرغوبة وإدارتها على نحو «JU‏ 


من خلال الاستعانة بطرق جديدة مستقاة من ale‏ الإحصاءء وعلوم الكمبيوترء والذكاء الاصطناعي» 
يجري الآن تصميم خوارزمياتٍ تقدم أفكارًا وتطويراتٍ جديدة في مجال العلوم. على سبيل المثال» 
على الرغم من أنه لا يمكن توقع وقت حدوث الزلازل ومكانه» فإن عددًا متزايدًا من المؤسسات 


تستخدم البيانات المُجمّعة بواسطة الأقمار الصناعية وأجهزة الاستشعار الأرضية لمراقبة النشاط 
الزلزالي. والهدف من ذلك هو تحديد المكان التقريبي الذي من «المرجّح» أن يشهد حدوث زلازل 
كبيرة على المدى الطويل. على سبيل المثال؛ قدّرت هيئة المسح الجيولوجي الأمريكيةء إحدى DUS‏ 
المساهمين في أبحاث الزلازل» عام CY «Y‏ أن «ثمة احتمالية قدرها ۷١‏ في المائة أن 31515 435 
سبع درجات سيحدث في غضون الثلاثين Ule‏ القادمة في شمال كاليفورنيا». تساعد (Aa‏ هذه 
الاحتمالات في تكريس الموارد لوضع إجراءات» على غرار تحسين قدرة المباني على Jai‏ 
الزلازل» ووضع برامج لإدارة الكوارث وإدخالها حيز التنفيد . تعمل pace‏ الشركات» العاملة في 
هذه المجالات ومجالات أخرى» على البيانات الضخمة لتقديم cA pee cad il‏ لم تكن متوافرة 
قبل ظهور البيانات الضخمة. ومن (à‏ أصبحنا بحاجة إلى إلقاء نظرة على ما يميّز البيانات 
الضخمة 


الفصل الثاني 
لماذا البيانات الضخمة مميز i‏ ة؟ 


لم تنشأ البيانات الضخمة من العَدَم؛ فهي وثيقة الصلة بتطور تكنولوجيا الكمبيوتر. أذى معدل النمو 
السريع للقدرات الحاسوبية وسعات التخزين إلى جمع كميات أكبر من البيانات مع الوقت» وبغض 
النظر Gee‏ كان أول Ge‏ صاغ مصطلح «البيانات الضخمة»» فإن الأمر كان يتعلق في البداية 
بالحجم da‏ ولكن؛ لا يمكن أن نقصّر تعريف البيانات الضخمة على عدد البيتابايت» أو حتى 
الإكسابايت» التي ei‏ وتخرّن. ومع ذلك» فإن إحدى الوسائل المفيدة للحديث عن «البيانات 
الضخمة»» الناتجة عن انفجار البيانات» يقدّمها مصطلح «البيانات الصغيرة»» وإن كان هذا 
المصطلح غير شائع الاستخدام بين جموع الإحصائيين. ولا شك أن مجموعات البيانات الضخمة 
LAEE‏ وگن لكي نتو صل إلى تعريف لهاء علينا y j‏ أن نتعرّف على «البيانات الصغيرة» 
ودورها في التحليل الإحصائي. 


البيانات الضخمة في مقابل البيانات الصغيرة 


عام ۱۹۱۹ء وصل رونالد فيشر» الذي أصبح يشتهر الآن بكونه Qua ga‏ علم الإحصاء الحديث 
بوصفه gis‏ أكاديميًا دقيقاء إلى محطة روتهامستد التجريبية الزراعية في المملكة المتحدة EL‏ 
مهمة تحليل بيانات المحاصيل الزراعية. Cue‏ البيانات من التجارب الميدانية الكلاسيكية التي 
أجريت في روتهامستد منذ أربعينيات القرن التاسع عشرء بما في ذلك أبحاثها على القمح الشتوي 
والشعير الربيعيء وبيانات الأرصاد الجوية من المحطة الميدانية. أطلق فيشر مشروع «برودبالك» 
الذي درس تأثيرات الأسمدة المختلفة على القمح» ولا يزال هذا المشروع جاريًا حتى الآن. 

حالما أدرك فيشر الحالة الفوضوية التي كانت عليها البيانات» اشتهر عنه أنه وصف بحثه الأولي 
هناك بأنه «التخلص من كومة الوحل». ولكن» من DIS‏ الدراسة المدققة لنتائج التجارب الذي كانت 
ilius‏ بعناية في دفاتر ملاحظات ذات أغلفة جلديةء تمكن فيشر من فهم ما تعنيه البيانات. كان فيشر 
يعمل وفقا لإمكانات عصره المحدودة» قبل ظهور التكنولوجيا الحاسوبية المعاصرة» ولم يساعده إلا 
آلة حاسبة ميكانيكية في إجراء الحسابات» بشكل صحيح رغم ذلك» على البيانات ditur a‏ 
مدار le V.‏ كانت هذه AW!‏ الحاسبة» المعروفة باسم «المليونير»» والتي كانت تعتمد تعتمد في عملها 
على عملية تدوير شاقة لذراع يدوي» هي أحدث ابتكارات ذلك العصر؛ فقد كانت ANY)‏ الحاسبة 
الأولى المتاحة تجاريًا التي يمكن استخدامها لإجراء عملية الضرب. كان عمل فيشر ÚL‏ 
بالحسابات» ولعبت ANI‏ الحاسبة «المليونير» دورًا مهما في تمكينه من إجراء العمليات الحسابية 
الكثيرة التي يمكن لأي كمبيوتر حديث إجراؤها في غضون توانِ. 


على الرغم من أن فيشر رتب الكثير من البيانات وحللهاء > فإنها لا تعد كمية كبيرة بالمفهوم 
المعاصرء وممًا لا شك فيه أنها لا تعد «بيانات ضخمة». كان جوهر عمل فيشر هو استخدام تجارب 
ay A i‏ وشاع Ee‏ عاليه PAR Soe eee‏ 
cá‏ إلا على البيانات الهيكلية. ue T i.‏ 
مجموعات البيانات الهيكلية الصغيرة . ولكن» لا يمكن تطبيق هذه الأساليب على كميات البيانات 
الكبيرة جدًا التي أصبحنا قادرين على الوصول إليها حاليًا عبر الكثير من المصادر الرقمية المختلفة 
المتاحة لنا 


peter er CE كروت‎ 


فى العصر c uad Jl‏ لم نعد نعتمد بالكامل على العينات؛ وذلك لأننا أصبحنا قادرين على جمع كل 
البيانات التي نحتاجها عن شعوب بأكملها. إلا أن حجم هذه المجموعات من البيانات e‏ تزداد 
ضخامة لا يمكنه بمفرده أن يقدّم تعريفا لمصطلح «البيانات الضخمة»» فعلينا أن ندرج «التعقيد» في 
Y‏ من تعريفاتها. Yours‏ من العينات المعدة بعناية من «البيانات الصغيرة»» أصبحنا نتعامل الآن مع 
كميات هائلة من البيانات التي لم تُجِمّع للإجابة عن أي أسئلة ciag yha‏ والتي تكون غير هيكلية 
عادة . من أجل توصيف السمات الرئيسية التي تجعل البيانات ضخمة» والاقتراب من وضع تعريف 
للمصطلح»› اقتر ح دوج لاني» في مقال كتبه عام eY «y‏ استخدام خصائص البيانات الضخمة 
qup wi‏ : الحجم» والتنوع» والسرعة. وبتناول كل عنصر من هذه العناصر على حدة» يمكننا تكوين 
فكرة أفضل ac‏ يعنيه مصطلح «البيانات الضخمة». 


ead 


يشير «الحجم» إلى كم البيانات الإلكترونية التي تُجِمّع وتُخزّن في الوقت الحالي» والذي ينمو بمعدّل 
متزايد. البيانات الضخمة ضخمة بالفعل» ولكن ما مدى ضخامتها؟ قد يكون من السهل تحديد حجم 
معين Ld‏ تعنيه كلمة «ضخمة» في هذا السياق» ولكن» ما كان يعد «ضخمّا» في الماضيء لم يعد 
ضخمًا بمعايير العصر الحالي. أصبح الحصول على البيانات يتزايد بمعدل ترتفع معه وتيرة التقادم 
الحتمي لأي حد نختاره. عام «Y‏ أعلنت شركة آي ڊ بي إم وجامعة أكسفورد عن نتائج استطلاع 
رأي عن عمل البيانات الضخمة. في :هذا الاستطلاع الدولي الذي شارك :فيه > ١1١4‏ مختصا يعملون 
في 15 دولة مختلفة» قال أكثر من نصفهم إن مجموعات البيانات nen Gas‏ 
اتيرابايت و ابيتابايت ات Aa‏ ا ضخمة؛ بينما em‏ حولي ثلث المشاركين Ms‏ فئة me D‏ طلنب 

TET "er d i E. iua نت‎ oes, ثماني سمات»‎ 


حين كانت السمة الأكثر اختيارًا هي «نطاق أكبر من المعلومات»» والتي اجتذبت نسبة VA‏ بالمائة 
من المشاركين. السبب الآخر لعدم إمكانية وجود حد معين بناءً على الحجم chii‏ هو أن ثمة عوامل 
أخرىء مثل سعة التخزين ونوع البيانات التي quasi‏ تتغيّر بمرور الزمن» وتؤثر على إدراكنا 
للحجم. ولا شك أن بعض مجموعات البيانات ضخمة للغاية بالفعل» ومن بينهاء على سبيل المثال لا 
الجسيمات الأول في العالم» والذي بدأ alec‏ عام .۲٠٠۸‏ حتى بعد استخراج نسبة واحد بالمائة là‏ 
من إجمالي البيانات المُنتجة» سيظل Gal‏ العلماء © ابيتابايت من البيانات ليعملوا على معالجتها 
سنويًا. 5 de‏ عام» يمكننا القول إن معيار الحجم يمكن تلبيته إذا كانت مجموعة البيانات لا يمكن 
جمعهاء وتخزينهاء وتحليلها باستخدام أساليب الحوسبة والإحصاء التقليدية. تعدا dia‏ الاستشعار» 
مثل تلك الناتجة عن مصادم الهدرونات الكبير» نوعًا واحدًا من البيانات الضخمة؛ ولذا دعونا نتناول 
بعضًا من الأنواع الأخرى. 


pos 


على الرغم من it‏ قد ترى مصطلححّي «الإنترنت» و«شبكة الإنترنت العالمية» يُستخدمان gale‏ 
على نحو متبادل» فإنهما في الحقيقة مختلفان تمامًا. الإنترنت عبارة عن شبكة من الشبكات» تتكوّن 
من أجهزة كمبيوتر» وشبكات كمبيوتر» وشبكات مناطق محليةء وأقمار صناعيةء وهواتف خلويةء 
وغيرها من الأجهزة الإلكترونية» جميعها متصلة Lee‏ وقادرة على إرسال جزم من البيانات فيما 
بينهاء ويُمكنها فعل ذلك باستخدام عنوان آي بي (بروتوكول الإنترنت). Ll‏ شبكة الإنترنت العالمية 
WWW)‏ أو الويب)» فيصفها مخترعها تي جيه بيرنرز لي بأنها «نظام معلومات عالمي» استغل 
اک cha) Curl‏ كل من ملك Gyms Jes‏ و اتا ا en‏ مور asl al‏ مع 
مستخدمين آخرين عبر وسائط على غرار البريد الإلكتروني» والرسائل الفورية» وشبكات التواصل 
الاجتماعي» والرسائل النصية. ويمكن للمشتركين مع أحد مزوّدي خدمات الإنترنت الاتصال بشبكة 
الإنترنت؛ ومن e‏ الوصول إلى الويب والكثير من الخدمات الأخرى. 


بمجرد اتصالنا بالويب» يصبح لدينا وصول إلى مجموعة غير منظمة من البيانات» من مصادر 
n con uu ee‏ اويا د كز a‏ 
كر OF) acci Me ee a eae duse x. en‏ بيت اك fale‏ 
النصوص أو منشورات مواقع شبكات التواصل الاجتماعي غير الهيكلية؛ وجداول البيانات شبه 
الهيكلية)» فإن أغلب البيانات الضخمة المستقاة من الويب تكون غير هيكلية. ينشر مستخدمو تويتر» 
على سبيل «QUAM‏ حوالي ٠‏ مليون رسالة مكوّنة من ۰ حرفا SS‏ أقصى» أو 3x»‏ $233«( كل 
يوم على مستوى العالم. تحمل هذه الرسائل القصيرة Aa‏ تجارية عالية» Lilley‏ ما تُحلّل حسب LY‏ 
كان ee etal‏ عقا desl dd‏ مادق هذ المضال الحدية لمحل الا عن clit,‏ 
أساليب مطوّرة بأسلوب خاصء وهو شيء لا يمكن أن نؤديه بفاعلية إلا باستخدام تحليلات البيانات 


الضخمة . على الرغم من pul‏ الكبير للبيانات التي تجمعها المستشفيات» والجيش» والكثير من 
الشركات التجارية لأغراض cue‏ فإنه يمكن تصنيفها جميعها في نهاية المطاف بأنها هيكلية» أو 
غير Alka‏ أو شبه هيكلية. 


TN 


تتدفق البيانات في العصر الحالي باستمرار من مصادر على غرار الويب» والهواتف الذكية» 
وأجهزة الاستشعار. والسرعة ترتبط Uis‏ بالحجم؛ كلما زادت سرعة ae:‏ البيانات» زادت كميتها. 
على سبيل المثال» تنتقل تنتقل الرسائل» QU‏ أصبحت «تنتشر بسرعة»» على CAS‏ التواصل 
الاجتماعي بطريقة تجعل لها تأثير كرة الثلج؛ ule. Gas Lu‏ إحدى شبكات ual sill‏ الاجتماعي» 
ويراه أصدقائي» ويشاركه كل منهم مع أصدقائه وهكذا. TP‏ تنتشر هذه الرسائل في جميع أنحاء العالم 
M GAL‏ 


تشير السرعة أيضًا إلى السرعة التي elus‏ بها البيانات إلكترونيًا. على سبيل المثال» من الضروري 
أن تنتج بيانات الاستشعارء على غرار البيانات الناتجة عن السيارات الذاتية القيادة» فى الوقت 
الحقيقي. فمن أجل أن تعمل السيارة بكفاءة» يجب oj‏ مُكل البيانات» التي ترسّل لا Sle‏ إلى موقع 
مركزي» بسرعة كبيرة للغاية حتى يمكن إرسال التعليمات الضرورية مرة أخرى إلى السيارة على 
نحو Ol‏ 


يمكن اعتبار التباين بُعدَا إضافيًا لمفهوم السرعة؛ فهو يشير إلى معدلات التغيّر في تدفق البيانات» 
مثل الزيادة الكبيرة ة في تدفق البيإنات خلال أوقات الذروة. ويُعد هذا البُعد مهما GY‏ أنظمة الكمبيوتر 
أصبحت Ut.‏ أكثر غرضة للتعطل. 


الموثوقية 


بالإضافة إلى العناصر الثلاثة التي a)‏ ترحها لاني» يمكننا إضافة «الموثوقية» بوصفها العنصر 
الرابع. وتشير Aud gh gall‏ إلى جودة البيانات الجاري جمعها. كانت البيانات ren‏ 
السمة المميزة للتحليل الإحصائي خلال القرن الماضبي. وكان فيشر وغيره ods‏ إلى ابتكار 
أساليب تتضمّن هذين المفهومّين» إلا أن البيانات التي تنتج في العصر الرقمي Sale‏ ما تكون غير 
Aa‏ واد ا ما تجمع دون تصفي caps cally c cata‏ لي کر عن AIAN‏ التي ف تكو 
محور الاهتمام. ولكننا نسعى إلى الحصول على معلومات من هذا المزيج. لنتناول مثالا على ذلك 
البيانات التي تنتجها مواقع شبكات التواصل الاجتماعي. هذه البيانات» بطبيعتهاء ليست دقيقة» أو 
موثوقة» وعادة لا تكون المعلومات المنشورة صحيحة. كيف GE‏ إذن في أن البيانات تعطي نتائج 
ذات معتى؟ يمكن أن يساعد الحجم في التغلب على هذه المشكلات» مثلما رأينا في الفصل الأول» 


عندما وصف ثيوسيديدز استعانة القوات البلاتية بأكبر عدد ممكن من الجنود Sa‏ الطوب من أجل 
زيادة أرجحية تخمين الارتفاع الصحيح (التقريبي) للجدار الذي رغبوا في تسلقه. ولكن» üde‏ أن 
نكون أكثر حذرًاء حيث نعلم من النظرية الإحصائية أن زيادة الحجم يمكن أن تؤدّي إلى نتائج 
عكسية؛ وذلك لأنه حتى في ظل وجود كمية كافية من بيانات» يمكننا العثور على Me‏ كبير من 
العلاقات الزائفة. 1 


التمثيل المرئي والخصائص الأخرى 


ظهر العديد من خصائص البيانات الضخمة الأخرى التي تنافست فيما بينها لتضاف إلى خصائص 
البياناات الضخمة الثلاث الأصلية التي اق قترحها لاني أو تحل محلهاء مثل «قابلية التععرّض للخطر» 
و«قابلية التطبيق»» ولعل el‏ هذه الخصائص الإضافية «القيمة» و«التمثيل المرني». تشير القيمة 
بوجه عام إلى جودة النتائج المستخرجة من تحليل البيانات الضخمة | كما أنها 3 تستخدم لوصف 
عمليات بيع البيانات من قبل الشركات التجارية إلى الشركات lst (Ul‏ معالجتها باستخدام أساليب 
التحليل لديها؛ ومن نم 2 فالقيمة مصطلځ شائع الاستخدام في مجال الأعمال القائمة على البيانات. 


لا axi‏ التمثيل المرئي أحد الخصائص المُحدّدة للبيانات الضخمة»؛ ولكنه Gad; Lad age‏ عرض 
النتائج التحليلية والتعريف بها. زاد yes‏ الشكل المألوف للمخططات الدائرية الثابتة ورسوم التمثيل 
البياني بالأعمدة» التي ساعدتنا في فهم مجموعات البيانات الصغيرة» لمساعدتنا في تفسير البيانات 
الضخمة مرئيّاء إلا أن إمكانية تطبيقها محدودة. ge‏ سبيل exi «QUAM‏ المخططات البيانية 
للمعلومات عرضًا أكثر تعقيداء ولكنها مخططات تابتة. وبما أن البيانات الضخمة يضاف إليها 
المزيد باستمرارء فإن أفضل التمثيلات المرئية لها تكون تفاعلية مع المستخدم» ويحدّثتها (iiia‏ 
بصفة منتظمة . على سبيل المثال» عندما نستخدم نظام تحديد المواقع العالمي (جي بي إس) لتخطيط 
عاك eo‏ خياد a‏ ضاي إلى ابد عير يكلو جنات 


de pally of Silly capall هذه الخصائص الأربع الرئيسية للبيانات الضخمة مجتمعة؛‎ he 
والموثوقية» تحديًا كبيرًا فيما يتعلق بإدارة البيانات. ويمكن فهم المميزات التي نتوقع الحصول عليها‎ 
من مواكبة هذه التحديات والأسئلة التي نأمل في الإجابة عنها باستخدام البيانات الضخمة» من خلال‎ 


التنقيب في البيانات الضخمة 


«البيانات هي häl‏ الجديد»» عبارة أصبحت APET‏ على نطاق واسع بين رواد الصناعة» 
والتجارة» والسياسة» وتنس Bale‏ إلى CADIS‏ همبي» مبتكر بطاقة و لاء عملاء تيسكوء > عام Veal‏ 


وهي عبارة جذابة تشير إلى أن البيانات» على JÈ‏ النفط» ذات قيمة كبيرة للغاية» ولكن يجب 
معالجتها أولا قبل أن تحقق هذه القيمة. استخدمت هذه العبارة في الأساس كحيلة تسويقية استخدمها 
النداثات Disc AK EY‏ . وقد تكون كلك calle cl, «Jails‏ هذه S ata d‏ قاق حكن ترما 
ا UC‏ أن تحصل على النفط» تكون لديك سلعة قابلة للتسويق. ولكن» لا ينطبق ذلك على 
البيانات الضخمةء فإنك لن تنتج BI‏ شيءٍ ذي ded‏ إلا إذا امتلكت البيانات المناسبة. Sid‏ الملكية 

eR ales‏ ا وعلى النقيض من النفطء لا يبدو أن البيانات مورد غير متجدّد. 
ولكن» استمرارًا لهذه الاستعارة الصناعية» فإن التنقيب في البيانات الضخمة هو مهمة استخراج 
معلوماتٍ مفيدة وقيمة من مجموعات البيانات الهائلة الحجم. 


باستخدام طريقتّي التنقيب في eau‏ وك elc a‏ اران CART Le‏ 
اكتشاف کک المعتادة أو الحالات غير المألوفة في البيانات فحسب» بل سيكون من الممكن 


nen AMI‏ أو دون cl ål‏ أحد الأساليب المستخدمة p‏ اعتبار aM KE‏ الخاضع 
للإشراف ii‏ شبيهًا إلى ae‏ ما بالتعلم القائم على الأمثلة لدى البشر. باستخدام caus‏ التدريب» Cus‏ 
تكون الأمثلة الصحيحة موسومة أو مميّزة» ينشئ برنامج كمبيوتر ما قاعدة أو خوارزمية لتصنيف 
أمثلة جديدة . وتفحقص هذه الخوارزمية باستخدام بيانات الاختبار. على النقيض من ذلك» تستخدم 


خوارزميات التعلم دون إشراف بياناتِ مدخلة غير موسومة ومن دون تحديد هدف معين؛ فهي 
و a‏ م Cal ME N‏ البيانات واكتشاف الأنماط الخفية. 


وكمثال على (aS‏ دعونا نتناول كشف الاحتيال المرتبط ببطاقات «Ju‏ ونرى كيف تستخدم كل 
طريقة. 


كشف الاحتيال في استخدام بطاقات الائتمان 


dá‏ الكثير من الجهود لاكتشاف الاحتيال في استخدام بطاقات الائتمان والحيلولة دون حدوثه. إذا 
كنت تعس الحكل Silo yy‏ مكالمة من CASA‏ كشف احتيال بطاقات الائتمان التابع cal‏ فقد تتساءل 
كيف اتخذ القرار بأن آخر das‏ ارا dias dsl, ed‏ الائتمانية من المحتمل أن تكون ضربًا 
من الاحتيال. بالنظر إلى العدد الهائل للمعاملات التي تتم باستخدام بطاقات الائتمان» لم يعد من 
المناسب أن يتولى البشر فحص هذه العمليات باستخدام ur‏ تحليل البيانات التقليدية؛ ومن ثم 
أصبحت أدوات تحليل البيانات الضخمة على نحو متزايد ضرورة لا غنى عنها. إن عزوف 
المؤسسات المالية عن مشاركة تفاصيل أساليبها للكشف عن الاحتيال ببطاقات الائتمان “yal‏ مفهوم؛ 
حيث إن ذلك سيمنح المجرمين الإلكترونيين المعلومات التي يحتاجونها لابتكار طرق للتحايل عليها. 
ولكن» يمكن أن نحصل على فكرة جيدة عن هذا الموضوع دون الخوض في تفاصيله الكاملة. 


ثمة العديد من السيناريوهات المحتملةء ولكننا سنتناول الخدمات المصرفية الشخصية وسنستعرض 
الشخصي للبطاقة (بي آي إن). في هذه الحالة» قد تظهر البطاقة زيادة مفاجئة في الإنفاق» go‏ 
عملية احتيال من السهل اكتشافها بواسطة الجهة المصدرة للبطاقة . وفي أغلب الأحيان» يستخدم 
المحتال البطاقة المسروقة للمرة الأولى في ol pal‏ «معاملة تجريبية» حيث يشتري شيئًا غير باهظ 
الثنمن. وإن لم Ë‏ هذه المعاملة أي إنذارات» يبدأ في الاستيلاء على مبالغ أكبر. قد تنطوي هذه 
المعاملات على احتيال وقد لا تنطوي؛ فربما اشترى صاحب البطاقة شين خارج نمط مشترياته 
المعتادء أو ربما أنفق فعلا الكثير من المال خلال هذا الشهر. كك لكت دنر renee‏ التي 
تنطوي على احتيال؟ uses‏ نتناول Ú glad y ji‏ دون إشراف يُدعى «التجميع», وكيف يمكن 
استخدامه في مثل هذا الموقف. 


التجميع 


cit‏ في لسار كناك العملاء الشرائية. , iss‏ ذلك عن اظ البحث في بيانات المعاملات 
بغرضص اكتشاف أي شيءٍ غير معتاد أو مشتبه cag‏ والذي ربما يكون ضربًا من الاحتيال أو لا 
يكون. 


تجمع شركات بطاقات الائتمان كما كبيرًا من البيانات وتستخدمه في إنشاء ملفات بياناتِ تعرض 
سلوكيات الشراء coal‏ عملائها. ومن cai‏ تحدد مجموعاتٌ من ملفات البيانات ذات الخصائص 
المتمائلة إلكترونيًا بواسطة برنامج كمبيوتر «تكراري» (أي يُكرّر La dala‏ كث نبل ا دة 
معينة). على سبيل المثال» قد تحدد gana‏ عه 4 للحسابات طبقا للموقع أي لنطاق الإنفاق المعتادء أو 
duh‏ للحد الأعلى لإنفاق العميل» أو طبقا لنوع السلع المُشتراة» وكل منها تتولد عنه مجموعة 
منفصلة. 


عندما تُجمّع البيانات بواسطة أحد (oa ja‏ خدمة بطاقات الائتمان فإنها لا تحمل أي وصف يشير إلى 
أن المعاملات مشروعة أو احتيالية. ومهمتنا هي استخدام هذه البيانات بوصفها مُدخلات» واستخدام 
إحدى الخوارزميات المناسبة» وتصنيف المعاملات بدقة. ولتحقيق ذلك» سنحتاج إلى dad‏ عن 
(Cle sans‏ أو فئات» ممائلة ضمن بيانات المدخلات cod.‏ يمكننا أن نجمع البيانات» على سبيل 
المثال» طبقا للمبالغ المُنفقة» أو مكان el yal‏ المعاملة» أو نوع col A Adae‏ أو jé‏ صاحب 
البطاقة Mes.‏ إجراء معاملة جديدةء Jad‏ رقم تعريف المجموعة لهذه المعاملة؛ وإذاركان مختلفا 
عن رام (enn a HUE‏ تعتبر المعاملة مشنبهًا فيها. حتى وإن حلت المعاملة 
ضمن المجموعة المعتادة» فإنها تظل مثار شك إذا كانت بعيدة بقدر كافب عن مركز المجموعة. 


على سبيل المثال» لنفترض أن ae‏ تبلغ من العمر Ule AY‏ 5 تعيش في باسادينا اشترت $ 
رياضية جذابة اا ue d‏ ال 


وزيارات مصفف الشعرء فإنها تعد انحرافا. Gls‏ شيءٍ خارج عن المألوف» مثل عملية الشراء code‏ 
يُنظر إليه على أنه يستوجب مزيدًا من البحث والتحقيق» وهو ما يبدأ إعادة بالتواصل مع مالك 
البطاقة ui.‏ شكل co eo Y‏ مثالا بسيطا للغاية على مخطط Cle gene‏ يمثل هذه الحالة. 
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pend os‏ كات 


توح ssl rod e) gd‏ الشهرية المعتادة deta’‏ في مجموعة واحدة مع اشخاص 
PN‏ تزداد نفقات sual‏ خلال هذا DE‏ وربما i ates‏ هذه الحالة مع الأشخاص في 
المجموعة (ج)» والتي لا تبعد كثيرًا عن المجموعة (ب)؛ ومن (2S‏ لا تعد مختلفة عنها إلى be‏ كبير. 
حتى وإن كان الأمر كذلك» Ly‏ أن هذه المصروفات حلت في مجموعة مختلفة» فسيتم التحقق منها 
بوصفها نشاطا مشبوهًا للحساب» إلا gj‏ شراءها للسيارة الرياضية الجذابة عبر حسابها يضع 
مصروفاتها à‏ في المجموعة (أ)» والتي تبعد كثيرًا عن مجموعتها المعتادة» وعليه» فمن غير المرجّح 
أن کس Actas] add lus‏ 

وئ النقيض من هذه eas‏ اا احتيالا 


* aayi يُستخدم في الكشف عن‎ Mt من أساليب التنقيب في‎ val ca sab Lined 


aue 


Lad 


المستخدمة "m laa (dà.‏ نبدأ ا yT UEM E‏ أو 


مُصتفة على نحو صحيح بالفعل. وتنقسم مجموعة البيانات هذه إلى «مجموعة تدریب»» تمكننا من 
إنشاء نموذج تصنيف من البيانات» و«مجموعة اختبار»» لكك eal‏ فن أن النموذج جيد. ثم 
يمكننا استخدام هذا النموذج في تصنيف ملاحظاتٍ جديدة حال ظهورها. 


لتوضيح مفهوم التصنيف» سننشئ مخططًا صغيرًا لتسلسل اتخاذ القرارات؛ لكي نكشف الاحتيال 
باستخدام بطاقات الائتمان. 


ull dui‏ يرم 
جدول ۱-۲ . 


باستخدام هذه isse bu‏ اشام مكل ا قراراتِ شجري» كالموضّح في TE A-Y Y USS‏ 
يمكن الكمبيوتر من تصنيف المعاملات الجديدة Al aA‏ إلى النظام. ونأمل أن نصل إلى asl‏ تصنيفي 
المعاملات المحتملين؛ Lil‏ مشروعة أو احتيالية» عن طريق طرح مجموعة من الأسئلة. 


جدول :١-7١‏ مجموعة بيانات احتيالية دات تصنيفاتِ معلومة 


TT‏ 0 هل العنصر هل 23 الاتصال بالعميل وسؤاله 

cc XA "ui S‏ غير عمًا إذا كان قد أجرى عملية التصنيف 
١ Se‏ معتاد؟ الشراء هذه؟ 

y "‏ معاملة 
مشرو de‏ 
l 5‏ معاملة 
j‏ 00 مشروعة 
y 5‏ معاملة 
e‏ احتيالية 
APP‏ 


هل Abi‏ عن سرقة البطاقة أو فقدانها؟ 


Ui Gal Lalas 


Sel pill العميل عملية‎ AST هل‎ 


معاملة احتيالية 


CEER csl الشجري‎ en jaa خط‎ Y كل‎ 


بدءًا من قمة المخطط الشجري في شكل Y-Y‏ نجد أن لدينا de gana‏ من الأسئلة الاختبارية التي 
ستمكننا من تصنيف المعاملات الجديدة. 


على سبيل المثال» إذا أظهر حساب السيد سميث أنه أبلغ عن فقدان بطاقة ائتمانه أو سرقتهاء فإن أي 
محاولة لاستخدامها iu‏ احتيالا. وإذا لم ald‏ عن فقدان البطاقة أو سرقتهاء فإن النظام سيتحقق مما 
إذا اشتري عنصرٌ غير معتاد أو عنصرٌ يتكلف Lele‏ لم يَعتد هذا العميل إنفاقه. إذا لم يحدث ذلك» 


MAC‏ تعتبر المعاملة غير معتادة» وستُصدّف بأنها مشروعة. من ناحية أخرىء إذا كان العنصر غير 
معتاد» فسيتلقّى السيد سميث مكالمةٌ هاتفية. إذا asl‏ كلى at‏ أحرى فا الشز op)‏ ف og yia‏ 


وإن لم يؤكد ذلكء Mi‏ احتيالًا. 

مها تزف إلى a‏ غير :رمي الاك الضكمة a lng‏ عل أعاط الأنبظة التي 
يُمكن الإجابة عنها من خلال التنقيب في البيانات الضخمة» دعونا نتناول الآن المشكلات المتعلقة 
بتخزين البيانات. 


الفصل الثالث 
تخزين البيانات الضخمة 


كانت سعة تخزين القرص الصلب الأولء الذي ابتكرته شركة آي بي al‏ وباعته في مدينة سان 
خوزيه بولاية كاليفورنياء حوالي ميجابايت» وكان يحتوي على Lea fo.‏ يبلغ قطر كل منها ۲٤‏ 
Aag‏ كان هذا القرص الصلب أحدث تقنية موجودة عام 1901 . كان حجم الجهاز هائلا؛ فقد كان 
يزن ما يزيد عن الطنء وكان يمثل lija‏ من جهاز كمبيوتر مركزي. عند Y! E Ts losa gh,‏ 
eS Se Se)‏ احتوى کل منها على ذاكرة مساحتها تصل إلى ١ميجابايت.‏ | المثير للدهشة 
on‏ نيل أرمستروتجة كان يحتوي على ذاكرة سباحتها 4لو رايت قط 


تطوّرت تقنيات الكمبيوتر سريعًاء وبحلول بداية ازدهار أجهزة الكمبيوتر الشخصية في ثمانينيات 
القرن العشرين» كان متوسط aaa‏ القرص الصلب في الكمبيوتر الشخصي TEE NY‏ إذا كان 
الكمبيوتر يتضمّن قرصًا he‏ بالفعل؛ إذ لم يكن الحال على هذا المنوال دائمًا. وهذه المساحة تكفي 
لتخزين صورة أو صورتين في يومنا هذا. زادت سعة تخزين أجهزة الكمبيوتر بسرعة كبيرة 
وعلى الرغم من أن سعة تخزين ن الكمبيوتر الشخصي لم تواكب تخزين البيانات الضخمة؛ > فإنها 
زادت على نحو كبير في السنوات الأخيرة. أصبح بإمكانك Lille‏ شراء كمبيوتر شخصي مساحة 
قرصه الصلب تمانية تيرابايت أو أكثر . وأصبحت محركات الأقراص المحمولة متوافرة Úlla‏ بسعة 
تخزين ١تيرابايت»‏ وهو ما يكفي لتخزين حوالي ٠‏ ساعة من الأفلام أو ما يزيد على call Y..‏ 
صورة. ستبدو هذه السعات كبيرة حتى نقارنها بحجم البيانات الجديدة التي تنتج كل يوم» والذي يُقدّر 
بحوالي 5, "إكسابايت. 


caia Lente‏ الصمامات yl. filly‏ سقور ات فى سقيفيات القرن العشوون: تتام Ane‏ الثر انز gis‏ اتا 
التي يمكن وضعها على شريحة إلكترونية واحدة بسرعة كبيرة للغاية» Ley‏ يتناسب مع قانون مور 
تقريبًاء والذي سنتناوله في الجزء الآتي من الكتاب. وعلي الرغم من التوقعات بأننا شارفنا على 
الوصول إلى الحد الأقصى للتصغير > فإن الأمر يظل مقاربة معقولة ومفيدة. أصبح في مقدورنا الآن 
رص مليارات الترانزستورات المتزايدة السرعة على شريحة Baal y‏ الأمر الذي يتيح لنا تخزين 
كميات أكبر من البيانات» في حين تسمح المعالجات المتعدّدة «s a‏ بالاشتراك مع برنامج كمبيوتر 
ذي مؤشرات تر ابط متعددة بمعالجة هذه البيانات. 


قانون مور 


عام UG ce‏ جوردون مور» الذي أصبح أحد الشركاء المؤسّسين لشركة إنتل» بأنه على مدار 
السنوات العشر lll‏ سيتضاعف تقريبًا عدد الترانزستورات التي يمكن وضعها في شريحة كل 
Vea ٤‏ . وعام » غير مور من تنبّئه وقال إن التعقيد سيتضاعف كل ۲ شهرًا على مدار 
خمس سنوات» ثم عاد مرة أخرى ليقول إنه سيتضاعف كل VE‏ شهرًا. c US‏ ديفيد هاوس» وهو 
ee P IE‏ 
حم فارخ مور ا ت ته البالغة؛ فقد أصبحت أجهزة الكمبيوتر Úa‏ أسرع» وأرخصء 
وأقوى Úa‏ كانت عليه عام 65 , الا أن مور نفسه يشعر بأن هذا «القانون» لن يستمر طويلا. 


طبقا لِمَا كتبه إم ميتشل والدروب في مقاله الذي نشر في عدد شهر فبراير ۲١٠١‏ من مجلة 
«نيتشر» العلمية» فقد اقتربت نهاية قانون مور. المعالج الدقية قيق هو الدائرة المتكاملة المسئولة عن 
تنفيذ التعليمات التي يقدّمها برنامج الكمبيوتر . يتكوّن هذا المعالج عادة من مليارات الترانزستورات 
المُكدّسة في مساحة صغيرة للغاية على شريحة مصغرة من السيليكون. وثمة بوابة في كل 
ترانزستور تسمح بتشغيله أو إلغاء تشغيله حتى يمكن استخدامه في تخزين صفر أو واحد. ويتدفق 
تيار Jd‏ ضئيل للغاية عبر كل بوابة igi, cos yl‏ خَرْجٍ eim‏ عند إغلاق البوابة. كان 
CENE‏ بالمسافة بين الى sole Oley keel‏ عن Chad‏ ج الو احدة هنها 

5 نانومترًا في أفضل أنواع المعالجات الدقيقة» وصرَّح بأن مشكلات ارتفاع درجة الحرارة 
الناتجة عن تقارب الدوائر الإلكترونية» وكيف يمكن تشتيتها بفاعلية» تتسبّب في تداعي النمو الأسّي 
الذي Gs‏ به قانون مورء الأمر الذي لفت انتباهنا إلى الحدود القصوى الأساسية التي رأى أننا نقترب 
منها بسرعة. 


النانومتر الواحد يساوي 3٠١‏ مترء أو جزءًا من المليون من الملليمتر. ولوضع هذا القياس ضمن 
شياق» aly‏ قطن الشحرة لدى الإنسان حوالي VO‏ ألف نانومترء ويتراوح قطر الذرة ما بين ١,١‏ 
O g‏ و٠‏ نانومتر. زعم باولو quim‏ أحد العاملين في شركة إنتل» أن الحد الأقصى للفجوات 
سيكون Y‏ أو Y‏ نانومترات» وأننا سنصل إلى هذا الحد الأقصى في المستقبل القريب» ربما حين 
ندخل عشرينيات القرن الحادي والعشرين. x‏ والدروب أنه «بهذا المعدل» سيكون سلوك 
الإلكترونات محكومًا بمبدأ عدم اليقين SI‏ الذي سيجعل الترانزستورات غير موثوقة على نحو 
ميئوس منه». وكما سنرى في الفصل السابع» من eS yall‏ جا فيما يبدو أن أجهزة الكمبيوتر الكَمّية 
وهي تقنية لا تزال في مهدهاء هي هي التي سترسم في نهاية المطاف الخطوات المقبلة في هذا الشأن. 


لا يزال قانون مور قابلا للتطبيق حتى يومنا هذا على معدل نمو البيانات؛ إذ يبدو أن كمية البيانات 
المنتجة تتضاعف تقريبًا كل عامّين. كما تزداد كمية البيانات بزيادة سعة التخزين وزيادة القدرة على 
معالجة البيانات. ونحن المستفيدون من ذلك: أصبحت نتفليكس» والهواتف الذكية» وإنترنت الأشياء 
(طريقة ملائمة لتسمية العدد الهائل من أجهزة الاستشعار الإلكترونية المتصلة بالإنترنت)؛ 
والحوسبة السجابية (شبكة عالمية من الخوادم إلمتصلة فيما بينها)» من بين خدماتٍ أخرىء ممكنة 
بفضل النمو الأسي الذي Gn‏ به قانون مور. كل هذه البيانات المُنتجة بحاجة إلى التخزين» وهذا ما 
سنتناوله فيما يلي. 


تخزين البيانات الهيكلية 


البيانات a‏ البيانات s.‏ البيانات FEM.‏ مثل كشوف الحسابات المصرفية iW,‏ 
العناوين الإلكترونية» في قواعد بيانات ارتباطية. ومن من أجل إدارة هذا RS‏ من البيانات الهيكليةء 

eM‏ نظام إدارة قواعد بيانات ارتباطية لإنشاء البيانات» والحفاظ cede‏ والوصول إليهاء 
رل تتمثل الخطوة ri‏ في تصميم مخطط قاعدة البيانات (أي بنية قاعدة البيانات). 
ولتحقيق ذلك؛ علينا أن نعرف حقول البيانات» وأن نكون قادرين على تنظيمها في جداول؛ ومن «e‏ 
سيكون ale‏ أن نحدد العلاقات بين الجداول. بمجرد الانتهاء من ذلك وإنشاء قاعدة البيانات» يمكننا 
أن نملأها بالبيانات وإجراء استعلاماتٍ فيها باستخدام لغة الاستعلام الهيكلية (SQL)‏ 


من čla‏ أنه يجب تصميم الجداول بعنايةء وق قا M‏ الكثيرٍ من العمل لإجراء تغييرات 
كبيرة. ولكن» ينبغي عدم التقليل من GLE‏ النموذج الارتباطي. فمقارنة بالكثير من تطبيقات البيانات 
الهيكلية» يُعد هذا النموذج Leyes‏ و موتو قا a apu cad gall anal Cees‏ البيانات 
الارتباطية (cau alae‏ ««التسوية»»» وتشمل تقليل تكرار البيانات إلى الحد الأدنى؛ ؟؛ ومن (el‏ الحد من 
متطلبات التخزين. وتسمح هذه العملية بإجراء استعلامات أسرع» ولكن» رغم ذلك» كلما زاد حجم 
البيانات تراجع أداء قواعد البيانات التقليدية هذه. 


تكمن المشكلة في قابلية Ley ats gill‏ أن قواعد البيانات الارتباطية صُمَّمت في الأساس لتعمل على 
خادم واحد chii‏ فإن سرعتها وموثوقيتها تتراجعان كلما أضيف المزيد من البيانات. الحل الوحيد 
لتحقيق قابلية التوسُع هو إضافة المزيد من القدرة الحاسوبيةء والتي لها حد أقصي أيضًا. يعرف هذا 
asl‏ «قابلية ao sil‏ الرأسية». على الرغم من أن البيانات الهيكلية عادة ما تخزن Jaa‏ في نظام 
إدارة قواعد بيانات «Aaa j‏ فإن كفاءة نظام إدارة قواعد البيانات الارتباطية «Je‏ حتى مع البيانات 
الهيكلية» عندما تكون البيانات ضخمة؛ أي عندما يكون حجمها بالتيرابايت أو البيتابايت أو أكثر. 


من السمات المهمة لقواعد البيانات الارتباطية وأحد الأسباب الجيدة للاستمرار فى استخدامها هو 
أنها تتماشى مع الخصائص الأربع الآتية: الذريّة» والاتساق» والعزل» والاستمرارية. تضمن الذريّة 
عدم تحديث قواعد البيانات بواسطة المعاملات غير الكاملة» ويستبعد الاتساق البيانات غير 
الصحيحة» ويضمن العزل عدم تداخل معاملة مع أخرى؛ وتعني الاستمرارية ضرورة تحديث قاعدة 
البيانات قبل تنفيذ المعاملة التالية . جميع هذه الخصائص (Abate‏ إلا أن تخزين البيانات الضخمة» 
التي تكون في الغالب غير هيكلية» والوصول إليهاء يتطلبان نهجًا مختلفا. 


تخزين البيانات غير الهيكلية 


فيما يخصٌ البيانات غير الهيكلية» Y‏ يصلح استخدام نظام إدارة قواعد البيانات الارتباطية لعدة 
أسباب» Ua Y‏ أنه بمجرد إنشاء مخطط قاعدة البيانات الارتباطية» يُصبح من الصعب تعيير ه. 
علاوة على ذلك» لا يمكن تنظيم البيانات غير الهيكلية في صفوف وأعمدة بما يحقق سهولة 
الاستخدام. وكما رأينا سابقاء Bale‏ ما تكون البيانات الضخمة عالية السرعة وتنتج في الوقت الحقيقي 
وتتطلب معالجة آنية؛ ولذا على الرغم من أن نظام إدارة قواعد البيانات الارتباطية يصلح يامتياز 
للعديد من الأغراض ويفيدنا كثيرّاء فقد أجريت على ضوء انفجار البيانات الحالي Gla‏ مكثفة في 
أساليب Suda dass cara‏ 


لتخزين مجموعات البيانات الهائلة code‏ تور ع البيانات على خوادم. وكلما زاد xe‏ الخوادم 
المُتضمّنة» زادت أيضًا احتمالية حدوث غطل في مرحلة cle‏ وعليهء à‏ فمن المهم أن تكون لدينا عدة 
نسخ متطابقة من البيانات نفسهاء وتخرّن كل نسخة على خادم مختلف. وممًا لا شك فيه أنه في ضوء 
كميات البيانات الهائلة الجاري معالجتها "EN‏ أصبح gue‏ إلى أعطال الأنظمة على أنها zi,‏ 
حتمي ؛ ومن ل Cod‏ طرق i OS elt‏ عالت «caos‏ كيف M‏ متطلباتٌ 
السرعة والموثوقية؟ 


ic f gall نظام هادوب للملفات‎ 


يوفر نظام الملفات Ae 5 sal‏ قدرة تخزينية فعالة وموثوقة للبيانات الضخمة عبر الكثير من أجهزة 
الكمبيوتر . من منطلق تأثره بالأفكار التي نُشرّت في أكتوبر ۲٠٠٠‏ بواسطة شركة جوجل في ورقة 
يدبا عن بدن Sica a‏ ادوج Gees‏ كان يعمل gS‏ 
عقوت al eiat‏ عة aid‏ هادوب» وهو أحد أشهر أنظمة الملفات lé ja cie gall‏ من مشروع 
أكبر للبرامج المفتوحة المصدر uy‏ «هادوب إيكوسيستم». سمي النظام باسم هادوب نيمّنًا بدمية 
صفراء محشوة على هيئة فيل كانت مملوكة لابن كاتينج» والمشروع مكتوب بلغة البرمجة الشهيرة 
جافا. إذا كنت تستخدم فيسبوك» أو تويترء أو إيباي» على سبيل المثال» فاعلم أن هادوب يعمل في 
الخلفية أثناء ذلك. يسمح النظام بتخزين البيانات شبه الهيكلية وغير الهيكليةء ويوفر منصة لتحليل 
البيانات. 


iae تور ع البيانات عبر الكثير من العُقد التي يُقدّر‎ cie) gall عندما نستخدم نظام هادوب للملفات‎ 
al io A oir wt aere un ER «cay VI ue ped 


رئيسية isis NE‏ من عُقَد البيانات الفرعية. 


تتعامل عُقدة الاسم NameNode‏ مع جميع الطلبات التي تصل من كمبيوتر عميل» وتوزّع 
مساحة التخزين؛ وتتابع المساحة المتوافرة للتخزين وموقع البيانات. كما أنها تدير جميع عمليات 
الملفات الأساسية (مثل فتح الملفات وإغلاقها) وتتحكم في الوصول إلى البيانات بواسطة أجهزة 


الكمبيوتر العميل. أمّا عُقَد البيانات DataNodes‏ فإنها تكون مسئولة عن التخزين الفعلي 


يُعَد النسخ المتمائل للبيانات إحدى السمات الرئيسية لنظام هادوب للملفات الموزعة. على سبيل 
gi‏ بالنظر إلى OSA‏ - 0 نرى أن الكتلة أ مُخزّنة في كل من عقدة البيانات ١‏ وعقدة البيانات 
Y‏ . ومن المهم أن 55 Be‏ نسخ من كل ABS‏ فإن حدث خلل في إحدى عقد البيانات» يمكن لعُقدٍ 
أخرى أن تتولى زمام الأمور وتواصل مهام المعالجة من دون فقدٍ البيانات. لمتابعة غقد البيانات» إن 
وجدت» وتحديد ما تعطل منهاء تتسلم عقدة الاسم رسالةٌ من كل منها على حدة كل ثلاث ثوانِء 
aut‏ «رسالة كشف أخطاء الاتصال»» وإذا لم تتسلم رسالة» فإنها a Ad‏ أن عقدة البيانات vin al‏ 4 
قد تعطلت عن العمل. ege y‏ إذا تعطلت عقدة ١ Suud‏ في إرسال رسالة كشف أخطاء الاتصال 
هذهء فستصبح عقدة البيانات Y‏ هي العقدة المسئولة عن عمليات الكتلة أ. ويختلف الوضع إذا فقدت 


عقدة الاسم» وفي كلتا الحالتين يجب استخدام نظام النسخ الاحتياطي المضمّن. 


عقدة الاسم 


تحتوي على بيانات تعريف المجموعات وتدير حق الوصول 


ETUR 
\ | أخطاء الاتصال‎ 


عقدة البيانات Y‏ 
بعد النسخ المتماثل 


الموزعة. 


تكتّب البيانات في عقدة البيانات لمرة واحدة» ولكنها سثقرأ بواسطة التطبيقات لمراتٍ كثيرة. تبلغ 
مساحة كل al LS ٤ Sale ALS‏ فقطء ومن «i‏ فإن هناك الكثير منها. إحدى وظائف عقدة الاسم 
هي تحديد أفضل عقدة Gilly‏ لاستخدامها eli‏ على الاستخدام الحالي» ما يضمن سرعة الوصول 
إلى البيانات ومعالجتها. ومن "n‏ يضل Ayasi‏ العميل إلى كتلة البيانات عبر العقدة المختارة. 


تضاف عقد البيانات طبقا لزيادة متطلبات التخزين وعندما توجد ضرورة لذلك» وهي السمة 
المعروفة باسم «قابلية ats sill‏ الأفقية». 


إحدى المميزات الرئيسية لنظام هادوب للملفات الموزّعة عن قواعد البيانات الارتباطية أنه يمكنك 
جمع كميات كبيرة من البيانات» والإضافة إليهاء وذلك من دون أن تكون لديك أدنى فكرة» أثناء فعل 
ذلك» ee‏ تريد استخدامها من alaj‏ يستخدم فيسبوك» على سبيل المثال» نظام هادوب في تخزين 
بياناته التي د تتزايد كمياتها باستمرار. والنظام لن يتسبّب في فقد أي بيانات» كما أنه سيُخرّن Gl‏ شي ءِ 
US,‏ شيءٍ في صيغته الأصلية. إن إضافة aie‏ البيانات حسب إلضرورة لا يكلف الكثير ولا يتطلب 
تغيير العقد الموجودة بالفعل. وفي حال أصبحت العقد التي أنشئت سابقا زائدة عن الحاجة» من 
السهل إيقافها عن العمل. كما رأينا سابقاء البيانات الهيكلية ذات الصفوف والأعمدة القابلة للتحديد 


يمكن تخزينها بسهولة في نظام إدارة قواعد بيانات ارتباطية» في حين يمكن تخزين البيانات غير 
الهيكلية بتكلفة منخفضة وبسهولة باستخدام أنظمة الملفات الموزعة. 


قواعد البيانات غير الارتباطية للبيانات الضخمة 


قواعد البيانات غير الارتباطية (NOSQL)‏ هي الاسم الشامل الذي يشير إلى نوع من قواعد 
البيانات التي Y»‏ تستخدم لغة الاستعلام الهيكلية ia‏ لماذا eee‏ الحاجة إلى نموذج غير 
ارتباطي لا يستخدم لغة الاستعلام الهيكلية؟ الإجابة المختصرة عن هذا السؤال هي أن النموذج غير 
الارتباطي يسمح U‏ بإضافة بياناتِ جديدة باستمرار. وللنموذج, غير الارتباطي بعض السمات 
الضرورية لإدارة البيانات الضخمة»ء وهي قابلية cate sill‏ والتوفرء والأداء. مع قواعد البيانات 
الارتباطية» لن يمكنك مواصلة التوسّع رأسيًا من دون خسارة قدراتها الوظيفية» Lain‏ يمكنك aus sill‏ 
ad‏ مع قواعد البيانات غير «Ayala yl‏ الأمر الذي qued‏ بالحفاظ على الأداء . قبل أن تصف البنية 
التحتية لقاعدة البيانات Ae 5 gall‏ غير الارتباطيةء وسبب كونها مناسبة للبيانات الضخمة: علينا Yj‏ 


أن نتناول نظرية (CAP‏ 


نظرية الاتساق» والتوفرء والسماح بخطأ انقطاع الاتصال 


عام pa ٠‏ إيريك برويرء أستاذ علوم الكمبيوتر في جامعة كاليفورنيا بيركلي» > نظرية الاتساق 
والتوفر والسماح بخطأ انقطاع الاتصال (CAP)‏ في سياق نظام قواعد البيانات cde 5 gall‏ يشير 
الاتساق إلى المَطلب الخاص بضرورة تمائل جميع نسخ البيانات عبر العقد cule g,‏ في شكل e A-Y‏ 
على سبيل المثال» يجب أن تكون الكتلة أ في عقدة البيانات ١‏ هي نفسها الكتلة أ في عقدة البيانات Y‏ 


ويشترط التوفر أنه إذا تعطلت إحدى العُقد» فإن العقد الأخرى تظل تؤدي وظيفتها؛ أي إذا تعطلت 
عقدة البيانات (Y‏ فيجب أن تظل عقدة البيانات ۲ تعمل. البيانات؛ ومن ثم Mc‏ البيانات» تكون 


موزعة la‏ عبر خوادم متفرقة» ويُمكن أن يتوقف الاتصال بين هذه الأجهزة في بعض الأحيان. 
وعندما يحدث ذلك» فإننا نكون بصدد ما anny‏ بخطأ «انقطاع الاتصال في الشبكة». يتطلب السماح 


بهذا الخطأ ضرورة أن يواصل النظام عمله حتى وإن حدث ذلك. 


خلاصة الأمرء تنص نظرية الاتساق والتوفر والسماح بخطأ انقطاع الاتصال على أنه فيما Joss‏ 
a‏ م Cnt‏ لي د الو 
ADU‏ وعليهء توجد ثلاثة احتمالات» فالنظام؛ LI‏ أن يكون متسقا ومتاحّاء Lely‏ أن يكون متسقا 
ويسمح بخطأ انقطاع الاتصال في ASLAN‏ وإمّا أن يسمح بخطأ انقطاع الاتصال في الشبكة ويكون 
متاحًا. لاحظ أنه بما أن الشبكة في نظام إدارة قواعد البيانات الارتباطية غير مُعرّضة لخطأ انقطاع 
الاتصال» فان الاتساق والتوفر وحدهما سيكونان المعيارّين محط الاهتمام» وسيحقق نموذج نظام 
إدارة قواعد البيانات الارتباطية كليهما. ái‏ في قواعد البيانات غير الارتباطيةء بما أن انقطاع 
الاتصال في الشبكة “yal‏ وارد الحدوثء فعلينا أن jg‏ ما بين الاتساق والتوفر. e‏ غضضنا 
الطرف عن التوفر #افسنتمكن من URRY‏ حت يتسفق a GAY‏ إذا اخترنا أن ذ نغض الطرف عن 
الاتساق» YS‏ هخ TELE‏ فإن هذا سيؤدي بالتبعية إلى أن البيانات ستختلف من خادم لآخر في بعض 
الأحيان. 


توجد ثلاث خصائص تصف هذا الوضع بطريقة ملائمة وهي: متوفر دائماء ومرن» ومتسق في 
النهاية. ويبدو أن هذه الخصائص الثلاث جاءت على النقيض من الخصائص الأربع لقواعد البيانات 
الارتباطية. تشير كلمة «مرن» هنا إلى المرونة في متطلبات الاتساق. وليس الهدف هو تجاهل Gi‏ 
من هذه المعايير الثلاثة» بل إيجاد طريقة لتحسينها جميعهاء وهي التوفيق بينها في الأساس. 


بنية قواعد البيانات غير الارتباطية 


اشتقت تسمية قواعد البيانات غير الارتباطية (NOSQL)‏ من حقيقة أن لغة الاستعلام الهيكلية 
(SQL)‏ لا يمكن استخدامها للاستعلام في قواعد البيانات هذه. edle y‏ فإن الروابط على غرار ما 
رأيناه في شكل 4 على سبيل المثال» لن تكون مُمكنة. ثمة أربعة أنواع من قواعد البيانات غير 
الارتباطية: قاعدة بيانات المفتاح والقيمة» وقاعدة البيانات القائمة على الأعمدة» وقاعدة بيانات 
المستند» وقاعدة بيانات التمثيل البياني» وتفيد جميعها في تخزين الكميات الكبيرة من البيانات 
الهيكلية وشبه الهيكلية. أبسط هذه د الأنواع LH ra‏ بيانات p‏ ولحي وتتكوّن من ias‏ 
«القيمة» E‏ أن تتضمّن hors‏ عديدة من البيانات. 


جدول :١-"‏ قاعدة بيانات المفتاح والقيمة. 


المفتاح القيمة 
e‏ العنوان: YY‏ أي طريق» أي مدينة 


020 النوع: ذكر؛ الحالة الاجتماعية: متزوج؛ ase‏ الأبناء: EY‏ الأفلام المُفضّلة: 
توم براك | سندریلاء دراكولاء باتون 


قد توجد بالطبع الكثير من أزواج المفتاح والقيمة cl‏ وأن إضافة أزواج جديدة أو حذف أزواج 
قديمة أمر سهل للغاية؛ Ua‏ يجعل قاعدة البيانات قابلة للتوسٌع أفقيًا إلى Se‏ كبير. القدرة الرئيسية لهذا 
النوع هي أننا نستطيع البحث عن القيمة الخاصة بمفتاح معين. على سبيل المثال» باستخدام المفتاح 
«جاين سميث»» سنتمكن من العثور على عنوانها. وبتوفر كميات ضخمة من البيانات» يوفر هذا 
النوع من قواعد البيانات جلا سريعًاء وموثوقاء وقابلا للتوسُع بسهولة للتخزين» ولكنه محدود بسبب 
عدم وجود dal‏ استعلام. تعد قواعد البيانات القائمة على الأعمدة وقواعد بيانات المستند» مُلحقين 
لنموذج المفتاح والقيمة. 


ái‏ قواعد بيانات التمثيل البياني» فتتبع نموذجًا مختلقاء ويشيع استخدامها في شبكات التواصل 
الاجتماعي» كما تفيد في تطبيقات الأعمال. عادة ما تكون هذه الرسوم البيانية كبيرة للغايةء لا سيّما 
عندما تُستخدم بواسطة شبكات التواصل الاجتماعي. في هذا النوع من قواعد البيانات» jA‏ 
المعلومات في a8‏ (أو رءوس) وخطوط مستقيمة. على سبيل المثالء يوضّح الرسم البياني في شكل 
YAY Y‏ كضبن is Guat id‏ اسه نمل HDL‏ يتغيّر التمثيل البياني بإضافة sie‏ أو تحديثها أو 
حذفها. 


في هذا المثال» cra dei‏ الأسماء والأقسام» والخطوط المستقيمة هي العلاقات بينها. وتُستخرج 
البيانات من التمثيل oe csl‏ طريق yes‏ هذه الخطوط. إذن» إذا أردت إيجاد s buddy‏ موظفي قسم 
تكنولوجيا المعلومات الذين يعولون «bl‏ على سبيل المثال» فسنجد أن بوب يحقق هذين 
المعياررين. و لاحظ أن هذا التمثيل البياني ليس led se‏ أي إننا لا نتبع اتجاهات الأسهم» بل نبحث 
عن وجود روابط. 


الأبناء 


شكل Y-Y‏ : قاعدة بيانات التمثيل البياني. 


في الوقت الحاليء ثمة مقاربة تحاول الحصول على بعض الزخم NewSQL cai‏ عن طريق 
الدمج بين أداء قواعد البيانات غير الارتباطية والخصائص الأربع للنموذج الارتباطي» فإن الهدف 
من هذه التقنية المُرتقبة بك هو يكل acs gill i coena‏ المصاحبة للنموذج الارتباطي بما يجعله أكثر 
ملائمة للاستخدام مع البيانات الضخمة. 


التخزين السحابي 


على غرار الكثير من المصطلحات الحاسوبية العصرية» يبدو مصطلح السحابة الإلكترونية 
مستساغاء ومريحّاء وجذابّاء ومألوقاء إلا أن «السحابة الإلكترونية» في الحقيقة» كما ذكر سابقاء 
مجرد طريقة للإشارة إلى شبكة من الخوادم المتصلة فيما بينها والموجودة في مراكز بيانات في 
جميع أنحاء العالم CR s,‏ مراكز البيانات هذه موقعًا مركزيًا لتخزين البيانات الضخمة. 


عبر الإنترنت» نتشارك استخدام هذه الخوادم التي تدار عن بُعدء وتوفرها العديد من الشركات (بعد 
دفع رسوم)» في تخزين الملفات وإدارتهاء وفي تشغيل التطبيقات»› وما إلى ذلك. وطالما cj‏ البرنامج 
المطلوب لإتاحة الوصول إلى السحابة الإلكترونية موجود على الكمبيوتر أو أي جهاز آخر لديك» 
فسيمكنك عرض ملفاتك من أي مكان» ومنح الإذن لآخرين للوصول إليها وعرضها. كما يمكنك 
استخدام برنامج «موجود باستمرار» على السحابة الإلكترونية بدلا من البرنامج الموجود على 
جهاز الكمبيوتر لديك. وعليه؛ فإن الأمر لا يتعلق بإمكانية الوصول إلى الإنترنت فحسبء بل يتعلق 
أيضًا بامتلاك وسيلة لتخزين المعلومات ومعالجتهاء ومن هنا جاء مصطلح «الحوسبة السحابية». إن 
احتياجاتنا الفردية إلى التخزين السحابي ليست كبيرةً إلى هذه الدرجة» ولكن في حال زيادتها ستزيد 
كمية المعلومات المخزنة بصورة هائلة. 


is‏ شركة أمازون أكبر مزوّد للخدمات السحابية» إلا أن كمية البيانات التي تديرها تعامّل على أنها 
سر تجاري. ويمكننا أن نأخذ فكرة عن أهمية هذه الشركة في مجال الحوسبة السحابية من خلال 
تناول حادثة وقعت في فبراير 2١١77‏ عندما تعرّض نظام التخزين السحابي لمنصة «خدمات 
أمازون oJ) «s‏ ثري) إلى «عطل» كبير (أي انقطاع الخدمة). Sau‏ العطل نحو خمس 
ساعات» giy‏ عنه انقطاع الاتصال بالكثير من مواقع الويب والخدمات الإلكترونية» بما في ذلك 
نتفليكس» وإكسبيدياء وهيئة الأوراق المالية والبورصات الأمريكية. أعلنت أمازون فيما بعد أن سبب 
العطل كان خطأ بشريّاء حيث ذكرت أن أحد موظفيها تسبّب في قطع الاتصال عن الخوادم دون 

قصد. واستغرقت إعادة s,‏ تشغيل هذه الأنظمة الضخمة وقتا أكبر من المتوقع» ولكنها تمت في النهاية 
بنجاح. ورغم ذلك» سلطت هذه الحادثة الضوءَ على قابلية الإنترنت للتعطل» سواءًٌ كان ذلك بسبب 
خطأ غير مقصود أو عملية قرصنة خبيثة المقصد. 


ضغط البيانات غير المنقوص 


في Ney‏ قدّرت مؤسسة البيانات c $ gall A4 gall‏ إجمالي حجم الكون الرقمي هائل ويبلغ 
tcp)‏ وهو عدد SA m‏ يساوي x‏ وبالتالي» val E‏ 
Corr cid MUN‏ ا RS ONCE Jess‏ 
لوجود البيانات الضخمة؛ إذ يدفعنا إلى حذف بياناتِ من مخازن البيانات بصورة منتظمة أو حتى 
أرشفتها؛ وذلك GY‏ هذه العملية في ذاتها مكلفة» ومن المحتمل أن تفقد بيانات Ley Aad‏ أننا لا نعلم 
بالضرورة ماهية البيانات التي قد تكون مهمة لنا في المستقبل. ولكن» مع كميات البيانات الهائلة 
الجاري تخزينهاء أصبح ضغط البيانات ضروريًا لزيادة مساحة التخزين المتاحة إلى الحد الأقصى. 


ثمة تبايّن كبير في جودة البيانات التي gaai‏ إلكترونيًا؛ ومن eS‏ لا بد من معالجة البيانات مسبقا قبل 
تحليلها على نحو مفيد؛ وذلك من أجل الكشف عن مشكلات الاتساق والتكرار والموثوقية وعلاجها. 
من الواضح أن الاتساق مهم إذا كنا بصدد الاعتماد على المعلومات المستخرجة من البيانات. كما أن 


إزالة التكرارات غير المرغوب Led‏ من تدابير الإعداد التحضيرية الجيدة GY‏ مجموعة بيانات» 
ولكن» مع وجود مجموعات erm E‏ هاجس E‏ ل 
Em c Eu uu‏ 


ثمة نوعان رئيسيان من الضغط: ا كين gayta)‏ و n nva‏ في «الضغط غير 
المنقوص»» يُحتفظ بالبيانات كلها دون فقد أي منها؛ ومن ثم ب يفيد هذا النوع تحديدا مع النصوص. 
على سبيل المثال» الملفات» التي لها الامتداد mir ZIP‏ فقد أي معلومات› ما يعني أن فلك 
ضغطها يعيدنا إلى الملف الأصلي. إذا ضغطنا cà YI ja labs‏ على 
هيئة ا5410 فمن السهل أن نعرف كيفية فك ضغط هذه السلسلة وإعادتها مرة أخرى إلى السلسلة 
الأصلية. يوجد الكثير من الخوارزميات المُستخدمة في ضغط البيانات» ولكن سيفيدنا أولا أن 
نتعرّف على كيفية تخزين الملفات دون ضغطها. 


cm‏ نظام ASCII‏ (الشفرة القياسية الأمريكية لتبادل المعلومات) الطريقة القياسية لترميز البيانات 
حتى يمكن تخزينها على أجهزة الكمبيوتر. يُخصّص لكل حرف أو رمز 3e‏ ترتيبي» وهو رمز 
ASCII‏ الخاص به. ومثلما رأينا سابقاء تخزّن البيانات على هيئة سلسلة من قيم الأصفار والآحاد. 
aud‏ كل من هذه الأرقام الثنائية «بت». ويستخدم نظام ASCI‏ القياسي ۸بت (وهو ما يُعرّف 
Ud‏ بأنه يعادل ١بايت)‏ لتخزين كل حرف ورمز. على سبيل المثال» في نظام Ja ASCII‏ 
للحرف ج بالعدد ۹۷ Gall,‏ يتحوّل إلى ٠٠٠٠٠٠١١‏ بالنظام الثنائي. هذه القيم مُدرجَة في جدول 
نظام ASCI‏ القياسيء الذي وضعنا جزءًا صغيرًا منه في نهاية هذا الكتاب. وفيما يخص الأحرف 
الإنجليزية الكبيرة» GLb‏ لها رموزًا مختلفة في نظام „ASCII‏ 


دعونا نتناول كيفية ترميز سلسلة الأحرف added‏ كما هو معروضٌ في جدول YAY‏ 


جدول YP‏ سلسلة أحرف بعد ترميزها 


سلسلة 
e d ZU‏ 0 0 3 
av EE EE ER EE ASCII‏ 
النظام 
(vss) (Yes. Yes oo) o EOD (Yes. Vo shat‏ 
الثنائي 


إذن» RS‏ سلسلة الأحرف added‏ مساحة تخزين مقدارها Cubo‏ أو Sutra ۸ × ٥‏ وبالنظر 
إلى شكل cV‏ يتحقق فك jae jill‏ باستخدام جدول رموز ASCII‏ لا تعد هذه طريقة اقتصادية لترميز 


البيانات وتخزينها؛ |3 Quad C)‏ ابت لكل حر V y legi Elles alias jay Cl‏ ناخد في Ais Lie YN‏ 
أن بعض الحروف في المستندات النصية 5 تستخدم بوتيرة أكثر تكرارًا من غيرها. يوجد الكثير من 
نماذج ضغط البيانات دون فقدهاء مثل خوارزمية «Qu gà‏ التي تستخدم مساحة تخزين أقل عن 
طريق الترميز المتغير الطول؛ وهو أسلوب يعتمد على مدى تكرار حرف معين. تعيّن للأحرف 

الأكثر تكرارًا رموز أقصر طولا. 


بالرجوع إلى سلسلة الأحرف added‏ مرة «sal‏ نلاحظ أن الحرف a‏ يظهر مرة واحدة 
والحرف e‏ يظهر مرة واحدة» والحرف d‏ يظهر ثلاث مرات. وبما أن الحرف d‏ هو الأكثر 
d) S‏ فلا بد أن يُخصّص له أقصر رمز. لإيجاد رمز هوفمان لكل حرف» تعد الأحرف المكوّنة 
لكلمة added‏ على النحو الآتي: 


la — le — 3d 
بعد ذلك» نبحث عن الحرقين الأقل تكرارًا؛ أي الحرقين ج وه» ثم ننشئ التركيب الموضّح في شكل‎ 
في أعلى الشجرة هو حاصل جمع عدد مرات تكرار‎ Y ويْسمّى «الشجرة الثنائية». العدد‎ ٠۳-۳ 
الحرفين الأقل تكرارًا.‎ 


2 
gx 
la le 


شكل PLY‏ شجرة ثنائية. 
نوصح في شكل ٤-١‏ العقدة الجديدة التي تمثّل التكرارات الثلاثة للحرف ad‏ 
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2 
la le‏ 
شكل ٤-١‏ : الشجرة الثنائية مع إضافة عقدة جديدة. 
يوضّح شكل ۳۔٤ ٤‏ الشجرة الكاملة وقد وضع في أعلاها العدد الإجمالي لتكرارات الحرف. ei‏ 


ترميز كل طرفي في الشجرة ة Ud‏ بصفر Ul g‏ بواحد» كما هو موضّح في شكل 5-1 ce-‏ ويكون التوصل 
إلى الرموز المقابلة من خلال تتبّع المسارات حتى أعلى الشجرة. 


0/ NI الرمز (بالبت,‎ 
[d 


2 3d 
07 NI 
la le 
ALIS الشجرة اة‎ 07 Qe 
e = وم = ١)وم = ٠ع وم‎ ١ = وم‎ ° = a Y added يتم ترميز كلمة‎ cule; 


وهذا يعطينا ٠٠١١٠١١١‏ .. باستخدام هذه الطريقة نلاحظ أن مساحة التخزين المستخدمة هي ”بت 


لتخزين الحرف ed‏ و ٣بت‏ لتخزين الحرف ca‏ و ۲بت لتخزين الحرف «e‏ ما يعطينا مساحة إجمالية 
مقدارها V‏ بت. وهذه المساحة أفضل بكثير من المساحة الأصلية التي تبلغ ٠‏ ؛بت. 


ثمة طريقة لقياس مدى كفاءة عملية الضغط وهي حساب نسبة ضغط البيانات» وتُعرّف بأنها حجم 
asl‏ «القلفات دون عط Us guide‏ على dope‏ مضبغوطا: في هذا المثال» النسبة V/ EO‏ تساوي تقريبًا 
C, EN‏ وهي نسبة ضغط عالية تدل على توفير جيد لمساحة التخزين. ومن الناحية العملية» تكون 
هذه الأشجار كبيرة للغاية؛ ومن ثم تستخذم أساليب رياضية معقدة لتحسينها. a nsu ss‏ 
جاءت تسمية هذا النوع من ضغط البيانات بالضغط غير المنقوص. ٠‏ 1 


ادات ال ن 


في المقابل» Bale‏ ما تكون ملفات الصوت والصور أكبر بكثير من ملفات النصوص؛ ومن ثم 
Lana pain‏ لوت ani cilia‏ و و ويرجع هذا إلى أن تطبيق أساليب الضغط 
غير المنقوص عند التعامل مع ملفات الصوت والصور قد لا يُسفر عن نسبة ضغط عالية بما يكفي 
CERT‏ تخزين البيانات بهذه الطريقة مجديًا. هذا بالإضافة ial‏ أن فقد بعض البيانات من ملفات 
الصوت والصور أمرٌ مقبول. يستغل الضغط المنقوص هذه السمة الأخيرة» ويحذف بعض البيانات 
في الملف الأصلي؛ ومن Ul B‏ من مساحة التخزين اللازمة. تتمحو vt‏ ر الفكرة الرئيسية حول حذف 
لي ا ل و ار م 


على سبيل Jid‏ لنفترض Si‏ لدينا صور ة فوتوغرافية بالأبيض والأسود» أو بوصف أدق «صورة 
ذات تدرّج رمادي»» لطفل يتناول الآيس كريم على شاطئ البحر | يحذف الضغط المنقوص كميتين 
متماتلتين من البيانات من صورة الطفل ومن صورة البحر | تحب Ct aai‏ المتحذو فة X diay‏ 


يكون لها تأثير كبير على إدراك الناظر للصورة الناتجة à:‏ (المضغوطة)؛ فالضغط المفرط سيؤدي إلى 
صورة Aub glia‏ ذلك يفيت كان اياده aaa‏ الط على ساب كرد By peal‏ 


إذا أردنا ضغط صورة ذات c‏ رماديء Ud‏ نقسّمها Ys)‏ إلى مربعات تبلغ مساحة US‏ منها ۸ 
بكسل A x‏ بكسل. وبما أن هذه المساحة صغيرة للغاية» فستكون جميع وحدات البكسل متشابهة 
بوجه عام من حيث الشكل. ومن (a3‏ تمثل هذه الملاحظةء د كدان a o‏ 
asl‏ أساسيات الضغط المنقوص. يحتوي كل بكسل على قيمة عددية 3 تتراوح ما بين صفر للأسود 
الخالص YOO,‏ للأبيض الخالاص» “hes‏ الأعداد e‏ تندرج بينهما ظلال اللون الرمادي. وبعد 
إجراء بعض المعالجة الإضافية باستخدام طريقة تسمّى «خوارزمية جيب التمام المتقطع»» dax‏ 
على متوسط قيمة الكثافة لكل od, AES‏ النتائج مع كل من القيم الفعلية لكتلة معينة. وبما Ud‏ 
نقارن هذه القيم الفعلية بمتوسط القيمة» فإن معظمها سيكون صفرًا أو سيصبح صفرًا عند تقريبه. 
تجمع خوارزمية الضغط المنقوص جميع هذه الأصفار معَاء وهو ما يمثل المعلومات المأخوذة من 
وحدات البكسل الأقل ial‏ بالنسبة إلى الصورة. rani‏ كل هذه cell‏ التي تناظر المناطق ذات 
الترددات العالية في Le cb j gall‏ وف المعلومات ASA‏ باستخدام أسلوب, t‏ «التكميم»»؛ 
a E‏ المكال» Ve sh iS‏ قم جاور ER EL a‏ 
وكان لدينا ٠‏ صفراء فإن كل ما سنحتاجه بعد الضغط هو مساحة تخزين مقدارها ٠‏ ؛بايت فقط. 


3585 هذه العملية مع جميع الكتل المكوّنة للصورة؛ ومن 23 تحذف المعلومات المكرّرة منها جميعًا. 


Grady Lad‏ الصور الملوّنة» تتعرّف خوارزمية «جيه بي إي جي» (المجموعة المشتركة لخبراء 
التصوير الفوتوغرافي)؛ على سبيل المثال؛ على الألوان الأحمر والأزرق والأخضرء وتعيّن لكل 
منها بُعدًا مختلفا ely‏ على الخصائص المعروفة للإدراك البصري لدى البشر. ci‏ يلون الأخضر 
أقصى بُعد؛ GY‏ العين البشرية أكثر إدراكا للون الأخضر عن اللوتين الأحمر والأزرق. ويْعيّن لكل 
بكسل في الصور الملوّنة قيمة كثافة لمكونات اللون الأحمر والأزرق والأخضر فيهاء Cus‏ هذا 
بالقيمة الثلاثية G, B‏ ,8. ولأسباب ide AS‏ ما تُحوّل Ad CLR d. B ad‏ 
أخرى» مثل YCbCr‏ حيث Shay‏ حرف كثافة اللون» وكل من Cry Cb‏ هما قيمتا التشبّع اللوني» 
اللتان تصفان اللون الفعلي. وباستخدام خوارزمية رياضية معقدة» يمكن تقليل قيم كل بكسل وإجراء 
ضغط منقوص في نهاية المطاف من خلال تقليل عدد وحدات البكسل المحفوظة. 


بوجه cale‏ يتم ضغط ملفات الوسائط المتعدّدة باستخدام أساليب الضغط المنقوص نظرًا لأحجامها 
الكبيرة. فكلما زاد مستوى ضغط الملف» تراجعت جودة إعادة إنتاجه» ولكن» نظرًا للتضحية ببعض 


بعد أن وضعت المجموعة المشتركة لخبراء التصور الفوتوغرافي معيارًا دوليًا لضغط الصور 
للمرة الأولى عام ۱۹۹۲ء أصبح تنسيق الملف JPEG‏ هو الطريقة الأكثر شيوعًا لضغط الصور 
الفوتوغرافية سواءٌ الملونة أم ذات التدرج الرمادي. ولا تزال هذه المجموعة تزاول نشاطها وتعقد 
اجتماعاتها عدة مرات كل عام. 


anil‏ مجدّدًا إلى مثال الصورة الفوتوغرافية ذات اللوتين الأبيض والأسود الملتقطة لطفل يتناول 
الآيس كريم على شاطئ البحر . من البديهي أن نراعي عند ضغط هذه الصورة أن يظل الجزء الذي 
يُظهر الطفل واضحًا؛ ومن Qi‏ فإننا نضحّي في سبيل ذلك بجزءٍ من وضوح تفاصيل الخلفية. أصبح 
هذا الأمر ممكنًا مع الطريقة الجديدة المسماة «ضغط البيانات عن طريق تمويهها»» التي ابتكرها 
الباحثون في كلية هنري سامويلي للهندسة والعلوم التطبيقية» بجامعة كاليفورنيا في لوس أنجلوس. 
وفيما يخصل القراء المهتمين بالتفاصيل؛ يُرجى مراجعة جزء «قراءات إضافية» في نهاية هذا 
الكتاب 


a 0‏ 2 
ceni. quaii‏ نظام mw‏ البيانات A sall‏ في تخرين البيانات الضخمة mE e.‏ 
الإجابة عن الأسئلة التي p RE‏ الإجابة Xo: us dita gic‏ ی في الفصل wee‏ تُستخدم 
طريقة خوارزمية aud‏ «ماب رديوس» في معالجة البيانات المخزنة في نظام هادوب للملفات 

الموزعة. 


الفصل الرابع 
تحليلات البيانات الضخمة 


بعدما تحدثنا عن كيفية جمع البيانات الضخمة وتخزينهاء يمكننا vi‏ تناول بعض من الأساليب 
المستخدمة في استخراج x ae‏ المفيدة من هذه البيانات» على غرار تفضيلات العملا أو مدى 
سرعة انتشار eus‏ ما. تتغير تحليلات البيانات الضخمة» « المصطلح Bo‏ لأساليب تحليل البيانات» 
بسرعة مع تزايد أحجام مجموعات البيانات وإفساح علم الإحصاء التقليدي المكال أمام هذا النموذج 
الجديد 


تقدّم شركة هادوب» التي تعرّفنا عليها في الفصل «CaN‏ .وشيلة لتر Cp‏ البيانات الضخمة من خلال 
نظام الملفات الموزعة الذي أنشأته. وكمثال على أساليب تحليل البيانات الضخمة اسنلقي نظرة على 
Zipi‏ «ماب رديوس» البرمجي» وهو عبارة عن نظام معالجة للبيانات الموزّعة والذي يشكل 
جزءًا من الوظيفة الأساسية لنظام «هادوب إيكوسيستم». تستخدم jl‏ ور وجوجل» وفيسبوك» 
وغيرها من مؤسساتٍ أخرى نظام هادوب في تخزين بياناتها ومعالجتها. 


نموذج «ماب رديوس» 


إحدى الطرق الشائعة للتعامل مع البيانات الضخمة هي تقسيمها إلى Cle gama‏ صغيرة ثم معالجة 
كل فق هذه المجموعات على حدة وهذا ما يفعله نموذج Glo‏ رديوس» MapReduce‏ في 
الأساس عن طريق توزيع العمليات الحسابية أو الاستعلامات المطلوبة على الكثير والكثير من 
أجهزة الكمبيوتر . من المفيد أن نتناول مثالا y Unie‏ ومختصرًا على آلية عمل «ماب رديوس»» Lars‏ 
Uil‏ سنفعل ذلك يدويًاء لا بد أن يكون حقا مثالا مختصرًا إلى 38 كبير» ولكنه يوضّح في الوقت نفسه 
الآلية المستخدمة مع البيانات الضخمة . لا توجد بطبيعة Qul‏ عدة آلاف من المعالجات المستخدمة 
في معالجة ApS‏ ضخمة من البيانات على نحو متزامن» ولكن» هذه الآلية قابلة cats gill‏ وهي فكرة 
PETTE‏ 


eee «التجزئة»» ومرحلة ««الخلط»»‎ ae أجزاء عديدة في هذا النموذج التحليلي:‎ PUN 
QA ثم‎ Madii مُكوّن التجزئة بواسطة المُستخيم؛ ويجري فيه فرز البيانات‎ ES «التجميع».‎ 
جزءًا رئيسيًا من الكود الرئيسي لنموذج «ماب رديوس» من هادوب» حيث‎ axi مرحلة الخلطء التي‎ 
التجميع» الذي يكعتبه‎ OX إلى‎ da BEF توضع البيانات في مجموعاتِ حسب المفتاح»‎ 
النتيجة بعد ذلك إلى‎ Jia A As pape هده المجموعات‎ ques gle ا ا‎ 


لنفترضء على سبيل المثال» أن لدينا ملفات المفتاح والقيمة الآتية مُخرّنة في نظام هادوب للملفات 
الموزعة» مع وجود إحصاءاتٍ عن كل من الأمراض التالية: الحصبة»ء وفيروس زيكاء والسُّل» 
والإيبولا. في هذه الحالة المرض هو المفتاح» od,‏ له Ad‏ كنل عند الحالات المصابة JS‏ 
مرض. ما يهمنا هو إجمالي عدد الحالات لكل مرض. 


٠:١ call 


الحصبة؛ Y‏ 
فيروس زيكاء Y (UE Y‏ الحصبة» 
فيروس زيكاء Y‏ الإيبولاء ۲ 


:Y الملف‎ 


0 
UA Y فيروس زيكاء‎ 


٠۳ الملف‎ 


الحصبة؛ Y‏ فيروس زيكاء Y‏ 
الحصبة؛ Y‏ فيروس زيكاء Y‏ 


تفصل أداة التعيين أزواج المفتاح والقيمة 


Y الحصبةء‎ 


١ الحضة:‎ ١ الشل:‎ Y 465835 aussi 


فيروس زيكاء Y‏ الإيبولاء Y‏ 


é الحصبةء‎ 


1 
فيروس زيكاء؟ السلء ١‏ 


Y (S35 فبروس‎ Y Axa I 


Y الإيبولاء‎ ١ الحصية £ فيروس زيكاء‎ Y ssl \ زيكاء‎ ETT É الحصية‎ 


44 jail Alla 3-6 کل‎ 


تمكننا أداة التعيين من قراءة كل ملف من ملفات الإدخال هذه على حدة» سطرًا بسطرء كما هو 
موضّح في le ١-4 Q&A‏ . ثم تعرض أداة التعيين نتيجة بأزواج المفتاح والقيمة لكل من هذه السطور 
المنفردة. 


بعد تجزئة الملفات وإيجاد أزواج المفتاح والقيمة لكل ملف مجزأء تستخدم i‏ ا aaay‏ 
5 ی HO TRO‏ الشحة إلى ملف فداه اقا کا CHE NC‏ 
في شكل Jat‏ 


استمرارًا مع USE‏ ٤-؟»‏ يدمج مُكَوّن التجميع نتائج مرحلتّي التجزئة والخلطء ونتيجة لذلك» يرسل 
بيانات كل مرض إلى ملف منفصل. بعد ذلك تسمح مرحلة التجميع في الخوارزمية بحساب 
الإجماليات الفردية ثم da j‏ هذه النتائج إلى ملف إخراج نهائي» في صورة أزواج المفتاح والقيمة» 
يمكن حفظه في نظام الملفات المُوزعة. 


شكل sut‏ دالتا الخلط والتجميع. 


ax)‏ هذا مثالا بسيطًا للغاية» ولكن يُمَكّننا نموذج «ماب رديوس» من تحليل كمياتٍ كبيرة للغاية من 
البيانات. على سبيل المثال» باستخدام البيانات التي تقدّمها مؤسسة كومون كراول» وهي مؤسسة 
شبكة الإنترنت عن طريق كتابة برنامج كمبيوتر مناسب يستخدم نموذج «ماب رديوس» البرمجي. 


عوامل تصفية «بلوم» 


أحد الأساليب المفيدة بوجه خاص في التنقيب في البياناات الضخمة عامل تصفية 4 «Bloom «e sly»‏ 
وهو أسلوبٌ يعتمد على نظرية الاحتمال OS‏ في سبعينيات القرن العشرين. كما سنرىء» تناسب 
عوامل تصفية «بلوم» بشكل خاص التطبيقات التي يُمثل فيها التخزين مشكلةء والتي يمكن فيها 
النفكير في البيانات على هيئة قائمة. 

الفكرة الأساسية في عوامل تصفية «جلوم» أننا نريد إنشاء نظام» ely‏ على قائمة من عناصر 
البيانات» للإجابة عن السؤال day‏ يوجد (س) في القائمة؟» في حالة مجموعات البيانات الضخمة» 


قد تصبح Adae‏ البحث في المجموعة بأكملها بطيئة للغاية بما يجعل البحث غير مفيد؛ ومن ثم 
«esl» Avnet ale gu‏ الذي لا يكون ده دقيقا بنسبة dp a Jee‏ لأنه pili la‏ على 
TON,‏ .ذلك ارت كم بالمترعة aa pally‏ وكناءة التخر ين اراي المعلومات 
العفيدة من البيانات. 


لعوامل تصفية «بلوم» الكثير من الاستخدامات. على سبيل المثال» يمكن استخدامها للتحقق مما إذا 
كان عنوان ويب معين يؤدي إلى موقع إلكتروني ضار. في هذه الحالة» قد يعمل عامل تصفية 
«a sly»‏ بمثابة قائمة حظر بعناوين ee Mali car o qu‏ ور ال 
للتحقق» بسرعة ودقة؛ مما إذا كان عنوان الموقع الإلكتروني الذي نقرت عليه للتو آمتا el‏ لا. ویمکن 
كذلك أن نضيف إلى قائمة eal)‏ . عناوين ن المواقع الإلكترونية التي as CASS)‏ أنها ضارة. Lars‏ 
أن adl gall aie‏ ا رود تقد کے hag) ia a) ja] cia y c fled‏ اع idis pt‏ 
الإلكترونية الضارة إحدى مشكلات البيانات الضخمة. 


أحد الأمثلة الوثيقة الصلة على ذلك رسائل البريد الإلكتروني الضارة» التي ربما تكون I x‏ 
عشوائيًا أو ربما تحتوي على محاولات تصيّد احتيالي. يوفر لنا عامل تصفية «بلوم» طريقة سريعة 
للتحقق من كل عنوان بريد إلكتروني؛ ومن ehi‏ نتمكن من anal‏ تحذير i‏ في الوقت المناسب إذا لزم 
الأمر. يشغل كل عنوان ٠‏ بايت تقريبًا؛ ومن GL £i‏ تخزين كل منها وفحصه عملية تستهلك وقتا 
طويلا للغاية بما Lil‏ نحتاج إلى تنفيذ هذا بسرعة كبيرة — باستخدام عامل تصفية «بلوم»» يمكننا 


- 


تقليل كمية البيانات المخزنة 15S‏ . يمكننا أن نرى كيفية هذا Alae‏ باتباع Adae‏ إنشاء عامل تصفية 
«بلوم» صغير واستعراض آلية عمله. 


لنفترض أن لدينا قائمة بعناوين البريد الإلكتروني التالية» ونريد أن نضع عليها علامة بأنها ضارة: 
.aaa@aaaa.com; bbb@nnnn.com; ccc@ff.com; dd@ggg.com‏ لإنشاء 
عامل تصفية «esl»‏ الخاص c‏ نفترض Y j‏ أن مساحة الذاكرة المتوافرة لدينا على جهاز 
الكمبيوتر هي ١بت‏ . طق على هذا اسم «مصفوفة البت»» وتكون فارغة في البداية. للبت حالتان 
chii‏ يُرمز لهما عادة بصفر وواحد؛ ولذا سنبدأ بضبط كل القيم في مصفوفة البت على ۰ ما يعني 
أنها فارغة. وكما سنرى بعد قليل» سيعني البت الذي قب قيمته ١‏ أن الفهرس المرتبط قد تمَّ تعيينه لمرة 
واحدة على الأقل. 


ee cicari‏ الحالات التي نضيفها 
وننشئ فهرسًا لكل بت في المصفوفة كما هو موضح في جدول ٠-٤‏ 


جدول :١1-5‏ مصفوفة مكوّنة من ١٠بت‏ 


CY! Lule‏ أن نتعرّف على «دوال التجزئة»» وهي عبارة عن خوارزميات مُصمّمة لتعيين كل 
عنصر في قائمة معينة إلى موضع ما في المصفوفة. وبذلك» لن نخزّن سوى الموضع المُعيّن في 
المصفوفة» بدلا من عنوان البريد الإلكتروني نفسه؛ ومن ثمَّ يقل مقدار مساحة التخزين المطلوبة. 


في کرک PONE (lik‏ تخدام دالتي تجزئة» ولكن» تستخدم في المعتاد ۷ أو álla VA‏ 
معًا في حالة التعامل مع مصفوفة أكبر بكثير. Lary‏ أن هذه الدوال iiai‏ لإجراء عملية التعيين 


على نحو موحّد نوعًا cle‏ فإن كل فهرس لديه فرصة متساوية لعرضه كنتيجة في كل مرة تطبّق Lead‏ 
خوارزمية التجزئة على عنوان مختلف. 

ومن i‏ علينا أولا أن ندع خوارزميات التجزئة تعيّن كل عنوان بريد إلكتروني إلى أحد فهارس 
المصفوفة. 

لإضافة العنوان الإلكتروني 20 إلى المصفوفة:؛ يُمرّر yj‏ عبر دالة التجزئة »١‏ 
التي تعرض قيمة موضع أو فهرس داخل المصفوفة. على سبيل المثال» دعونا نفترض أن دالة 
التجزئة \ عرضت الفهرس id‏ وعند تطبيق دالة التجزئة Y‏ على العنوان الإلكتروني 
aaa@aaaa.com‏ عرضت الفهرس Y‏ . سيكون لكل من هذّين الموضعين قيمة بت مُخزّنة لهما 
إضافة العنوان الإلكتروني bbb@nnnn.com‏ في الموضعين Y‏ و۷ ORA‏ هذين الموضعين أو 
تعيين القيمة ١‏ لهماء وقد ينتج عن إضافة العنوان الإلكتروني CCC@FF.COM‏ الموضعان 5 و۷. 
وأخيرّاء افترض أن lla‏ التجزئة المُطبقتين على العنوان الإلكتروني dd@ggg.com‏ ينتج 
عنهما الموضعين ۲و . يعرض جدول ۲-٤‏ ملخصًا بهذه النتائج. 


جدول :۲-٤‏ ملخص نتائج دالتي التجزئة 


۲ دالة التجزئة‎ ١ البيانات دالة التجزئة‎ 
3 Y aaa@aaa.com 
M Y bbb@nnnn.com 
۷ 3 ccc@ff.com 
1 Y dd@ggg.com 


مصفوفة عامل تصفية «بلوم» الحقيقي موضّحة في جدول ۳-٤١‏ مع تعيين القيمة ١‏ إلى المواضع 
المشغولة فيها. 


جدول :۳-٤‏ عامل تصفية «بلوم» لعناوين البريد الإلكتروني الضارة 


4| al vil TI E EET oad. Pe 
a 5 ١ ١ 5 ١ ١ ١ ٠ ٠ قيمة البت‎ 


كيف نستخدم إذن هذه المصفوفة بوصفها عامل تصفية «يلوم»؟ دعونا نفترض أننا تسلمنا رسالة 
بريد إلكتروني ونرغب في التحقق مما إذا كان العنوان يظهر في قائمة عناوين البريد الإلكتروني 
الضارة أم لا. ولنفترضن أن هذا العنوان مُعيّن إلى الموضعين ؟ Vg‏ اللذين يحملان القيمة Y‏ . بما أن 
جميع القيم المعروضة تساوي !€ من «المحتمل» أن العنوان ينتمي إلى القائمة» وعليه» فمن 
«المحتمل» أن يكون ضارًا. لا يمكننا الجزم يقيتا بأن العنوان موجود في القائمة؛ GY‏ الموضعين Y‏ 
و۷ LIS‏ نتيجة تعيين عناوين GA!‏ وربما تكون الفهارس قد استخدِمّت أكثر من مرة. ومن «ei‏ 
عندما نختبر انتماء عنصر ما إلى القائمة» فمن ن المحتمّل Laj‏ عرض نتيجة إيجابية خاطئة. ومع 
ذلك» في Alle‏ عرض فهرس مصفوفة بالقيمة ٠‏ كنتيجة لأي دالة تجزئة (تذكر أنه قد يوجد بوجه 
عام ۱۷ أو ۸ دالة)» نعلم يقيتا أن العنوان غير موجود في القائمة. 


إن العمليات الحسابية المتضمّنة معقدة» ولكننا نلاحظ أنه كلما زاد حجم المصفوفة زاد عدد الأماكن 
غير المشغولة» وتضاءلت احتمالية الحصول على نتائج إيجابية زائفة أو تطابق غير صحيح. ومن 
lel‏ أن حجم المصفوفة يتحدد بعدد المفاتيح ودوال التجزئة المُستخدّمة» ولكن لا بد أن تكون 
المصفوفة كبيرة بما يكفي لتوفير عدد من الأماكن غير المشغولة يسمح لعامل التصفية بأداء وظيفته 
بفاعلية ويقلل عدد النتائج الإيجابية الزائفة إلى الحد الأدنى. 


تتسم عوامل تصفية «esl»‏ بالسرعة› Sa s‏ أن تقدم طريقة مفيدة للغاية لاكتشاف CoA‏ 
بطاقات الائتمان الاحتيالية . يتحقق عامل التصفية مما إذا كان go‏ معين ae‏ إلى قائمة أو 
مجموعة معينة al‏ لاء ale‏ تُوضّع علاماتٌ على أي معاملات غير معتادة بأنها GY‏ تنتمي تنتمى إلى قائمة 
معاملاتك المعتادة. على سبيل المثال؛ إذا لم تكن اشتريت من قبل معدات تسلق الجبال باستخدام 
بطاقتك الائتمانية» فسيضع عامل تصفية «جلوم» علامة على عملية شراء Sua‏ التسلق هذه بأنها 
مشبوهة. وعلى النقيض من ذلك» إذا كنت قد اشتريت معدات تسلق الجبال من saad ib‏ عامل 
تصفية «بلوم» عملية الشراء هذه بأنها ربما تكون مقبولة» ولكن سيظل الاحتمال قائمًا في أن النتيجة 
ET‏ 


كما يمكن استخدام عوامل تصفية «بلوم» لتصفية رسائل البريد الإلكتروني بحنًا عن البريد 
العشوائي. وتعد عوامل تصفية البريد العشوائي مثالا جيدًا على ذلك بما أننا لا نعلم ما نبحث عنه 
بالضبط — gai‏ نبحث Sale‏ عن أنماطء ومن ثم إذا كنا نريد أن Jab‏ رسائل البريد الإلكتروني 
المشتملة على كلمة mouse‏ على أنها بريد عشوائي» فعلينا أن نحدّد أيضًا ضرورة التعامل مع 
أشكال أخرى mOuse chs II‏ أو «mou$e‏ على kÍ‏ بريد عشوائي. في الواقع» نريد pe‏ 
مع كل الأشكال المحتمّلة التي يمكن تعريفها للكلمة على أنها بريد عشوائي. سيكون من الأسهل 
is‏ | تصفية كل الكلمات التي لا تطابق كلمة معينة» وعليه» قد نسمح لكلمة MOUSE‏ وحدها 
بالمرور عبر عامل التصفية. 


تستخدم عوامل تصفية «e sb»‏ يسا لتسريع الخوارزميات المُستخدّمة في ترتيب نتائج استعلامات 
الويب» وهو موضوع على جانب كبير من الاهمية لاولئك الذين لديهم مواقع إلكترونية يرغبون في 
الترويج لها. 


خوارزمية «بيدج رانك» 


عندما نُجري as‏ على محرك بحث جوجل» ci i‏ المواقع الإلكترونية الناتجة حسب صلتها بكلمات 
البحث. يجري محرك بحث جوجل هذا الترتيب في الأساس عن طريق تطبيق خوارزمية تسمّى 
«بيدج رانك» (PageRank‏ أي A55»‏ الصفحات». يُعتقد أن اسم الخوارزمية «بيدج رانك» قد 
اختير GAB‏ بلاري بيدج» أحد مؤسسي شركة جوجلء الذي نشر مقالات» بالتعاون مع الشريك 
Ue gall‏ سيرجي برين» عن هذه الخوارزمية الجديدة. حتى صيف عام CY ٠5‏ كانت نتائج 
خوارزمية «بيدج رانك» متاحة للجمهور عن طريق تنزيل شريط الأدوات «بيدج رانك». كانت أداة 
«بيدج رانك» العامة 3 تعتمد على مقياس من ١‏ إلى .٠١‏ وقبل أن يتم حجبهاء > E CNRS‏ عطق 
النتائج. إذا كتبت عبارة «البيانات الضخمة» في محرك بحث جوجل باستخدام الكمبيوتر المحمول» 
تصلني رسالة تخبرني بأنه يوجد «حوالي ١‏ مليون نتيجة cst)‏ غضون «(A36 ٠,55‏ برتبة 
صفحات مقدارها ,A‏ وفى في أعلى هذه القائمة» توجد بعض الإعلانات المدفوعة» تليها نتيجة البحث 
الخاصة بموقع ويكيبيديا. ye Casal ule cá ju‏ كلمة eee esene Ua e «cilia»‏ نتيجة 
فى غضون ٠,٤١‏ ثانية برتبة صفحات مقدارها 4. ومن الأمثلة الأخرىء التى كانت جميعها برتبة 
صفحات مقدارها ٠١‏ موقع الحكومة الأمريكيةء وفيسبوك» وتويترء ورابطة الجامعات الأوروبية. 


يعتمد أسلوب حساب رتبة الصفحات هذا على عدد الروابط المؤدية إلى صفحة ويب ماء فكلما زاد 
عدد الروابط» ارتفعت درجة التقييم» وظهرت الصفحة في مكان أكثر تقدمًا ضمن نتائج البحث. ولا 
يعكس هذا عدد مرات زيارة الصفحة. إذا كنت مصمّم مواقع إلكترونية» فإنك ترغب في تحسين 
موقعك حتى يتصدر قائمة نتائج البحث بكلمات بحثِ معينة؛ وذلك GY‏ أغلب الناس Y‏ ينظرون إلى 
ما هو أبعد من نتائج البحث الثلاث أو الأربع الأولى. وهذا يتطلب عددًا هائلا من الروابطء ويؤدي» 
لا محالة» إلى عملية متاجرة بالروابط. حاولت جوجل حل مشكلة الترتيب «الزائف» تلك عن طريق 
تعيين رتبة جديدة هي صفر للشركات المتورطة في الأمرء أو حتى إزالتها تمامًا من محرك بحث 
جوجل» إلا أن هذا لم يحل المشكلةء بل أجبر هذه التجارة على العمل في الخفاءء واستمر بيع 
الروابط. 


لم تستبعد خوارزمية «بيدج رانك» نفسهاء بل أصبحت lé ja‏ من مجموعة كبيرة من برامج الترتيب 
غير المتاحة للعامة. يعيد محرك بحث جوجل حساب GSN‏ بصورة دورية»ء بما يعكس الروابط 
المضافة وكذلك المواقع الإلكترونية الجديدة. وبما أن خوارزمية «بيدج رانك» حسّاسة من الناحية 
التجارية» فلا توجد تفاصيل كاملة عنها متاحة للعامة» ولكن يمكننا تكوين فكرة lie ide‏ بالنظر 
إلى مثال. تقدّم الخوارزمية طريقة معقدة لتحليل الروابط بين صفحات الويب ely‏ على نظرية 


الاحتمالات» gu Cus‏ الاحتمالية «واحد» إلى اليقين والاحتمالية «صفر» إلى الاستحالة» 5 JS‏ 
شيء آخر يحمل قيمة احتمالية 5 تتراوح بين هاتين القيمتين. 


لفهم كيفية تحديد csl‏ نحتاج أولا إلى أن نعرف الشكل الذي يكون عليه التوزيع الاحتمالي. إذا 
فكرنا في نتيجة إلقاء نرد ذي ستة أوجه متساويةء فإن النتائج من ١‏ إلى تمل dup stes‏ 


نفسهاء sade g‏ فان كلا منها 4l‏ احتمالية بنسبة AJY‏ تصف القائمة التي د : تتضمّن جميع النتائج 
المحتملةء بالإضافة إلى احتمالية حدوث كل منهاء التوزيعَ الاحتمالي. 
بالرجوع مرة أخرى إلى مسألة تر تيب صفحات الويب حسب الأهمية» لا يمكننا القول إن جميعها 


متساوية من حيث الأهميةء ولكن uc‏ ب الاحتمالات لكل صفحة ويب» فمن 
شأن هذا أن يمنحنا مؤشرًا معقولا عن مدى أهميتها. إذن» ما تفعله خوارزميات على غرار cx»‏ 
رانك» هو أنها تنشئ توزيعًا احتماليًا لشبكة الويب بأكملها. لنفسير ذلك» دعونا نتخيّل متصفحًا 
عشوائيًا للويب يبدأ التصفح من أي صفحة ويب ثم ينتقل إلى iaia‏ أخرى باستخدام الروابط 
المتاحة. 

سنتناول مثالا Lak‏ يتضمّن موقعًا إلكترونيًا UGS‏ من ثلاث صفحات ويب chi‏ وهي 
BigData3s :BigData2 «BigData1‏ لنفترض أن الروابط الوحيدة توجد ما بين 
«BigData3, BigData2‏ وما «BigData1s BigData2 ox‏ وما ox‏ 810103631 


BigData3 ;‏ يمكن إذن تمثيل هذا الموقع الإلكتروني على النحو الموضّح في شكل Cus Vie‏ 


شكل 5-5: رسم بياني موجه ie)‏ جز de‏ صغيرًا من الموقع 
الإلكتروني. 


لكل صفحة رُتبة تدل على مدى أهميتها أو شيوعها. ستكون صفحة BigData3‏ هي الأعلى رُتبة؛ 
لأن أغلب الروابط تتجه إليهاء ما يجعلها الأكثر شيوعًا. والآنء لنفترض أن متصفحًا عشوائيًا يزور 
صفحة ويب» ومتاح له تصويت نسبي بواقع صوتٍ واحد فقط للإدلاء به» والذي يُقسّم بالتساوي بين 
اختياراته التالية من صفحات الويب. على سبيل المثال؛ إذا كان المتصفح العشوائي يزور حاليًا 
صفحة BigData1‏ فإن الخيار الوحيد المتوفر أمامه هو زيارة صفحة 810103633 بعد ذلك. 


وعليه» يمكننا القول إنه أجري تصويتٌ بواقع Spe‏ واحد من قبل 8101036311 لصالح 
dod‏ 


Lin viv‏ روابط في موقع الويب الحقيقي باستمرار؛ ومن (ei‏ لنفترض su. uj‏ الآن أن صفحة 
BigData3‏ تشتمل على رابط يؤدي إلى صفحة LS «BigData2‏ هو موضح في شكل (i-i‏ 
إذن ستتغيّر قيمة PageRank‏ لصفحة GY «BigData2‏ المتصفح العشوائي أصبح OY! Ax‏ 
أكثر من وجهة للانتقال إليها بعد صفحة .BigData3‏ 


الكل دقام ويد عباتي ee er reer‏ من الموقع 
الإلكتروني مع إضافة الرابط. 


إذا بدأ المتصفح العشوائي في Lillie‏ الحالي عند صفحة <BigDatal‏ وكان الخيار الوحيد أمامه هو 
الانتقال إلى صفحة 810103633 بعدهاء فإن التصويت بأكمله بواقع صوت واحد ينتقل إلى 
43 وتحصل صفحة BigData2‏ على صفر من الأصوات. Ub‏ إذا بدأ المتصفح 
العشوائي عند صفحة 810103]32» فسيّقسّم التصويت بالتساوي بين الصفحتين 810103633 
cd ^aa s, BigData1 s‏ إذا بدأ المتصفح العشوائي عند BigData3‏ فسوف يقل عدد الأصوات 
كاملا إلى BigData2‏ يعرض جدول 2-4 4-4 Lendl‏ بقيم «التصويت» النسبي هذه. 

باستخدام جدول 4-4» يمكننا أن نرى GY!‏ إجمالي عدد الأصوات المُدلى بها لصالح كل صفحة ويب 
كالاتى: 


إجمالي الأصوات لصالح 801 هو ۲/١‏ (من قبل (BD2‏ 


إجمالي الأصوات لصالح 802 هو ١‏ (من قبل (BD3‏ 


(BD25 BD1 (من قبل‎ v> هو‎ BD3 الأصوات لصالح‎ ulus 


جدول 5-:: الأصوات المُعطاة لكل صفحة ويب 


نسبة الأصوات نسبة الأصوات نسبة الأصوات 
المعطاة من قبل 228101 المُعطاة من قبل 28102 المُعطاة من قبل BD3‏ 


لصا 
صفر ۲/۱ صفر 
BD1‏ 
لصالح , i‏ 
١‏ 
cs vam BD2‏ 
لضام 
\ ۲/1 
i BD3‏ صفر 


وبما أن اختيار صفحة البدء يكون عشو OE‏ فإن احتمالية اختيار المتصفح لكل صفحة منها يكون 
متساويًا؛ ومن ثم cad‏ لكل منها A‏ صفحة مبدئية هي ١‏ لتحديد رتب الصفحات المرغوب فيها 
Lad‏ يخص Lille‏ الحالي» علينا أن تُحدّث رتب الصفحات المبدئية حسب نسبة الأصوات المعطاة 
لكل صفحة. 


على سبيل المتال» حصلت صفحة 801 على ۲/١‏ صوت» أعطته لها صفحة BD2‏ وعليه»ء فإن 
رُتبة صفحة 801 هي canas (Jul, /Y = ۲/١ × ۳/١‏ رُتبة iaia‏ 802 من خلال Y/‏ 
A855 ٦/۲ = ۱ x‏ 803 من خلال ۳/۱ × Lay TY = Y/Y‏ أن رُتب الصفحات مجموعها 
يساوي واحداء نلجأ إلى التوزيع الاحتمالي الذي يُحدّد أهمية كل صفحة أو رُتبتها. 


ولكننا Ul Lis Ade aal giu‏ سابقًا Cj‏ احتمالية أن يبدأ متصفحٌ عشوائي التصفح من أي صفحة 
تساوي ."/١‏ وبعد خطوة واحدة» حسبنا أن احتمالية بدء المتصفح العشوائي التصفح من صفحة 
1/١ si 1‏ . ماذا سيحدث بعد خطوتين؟ cua‏ > مرة أخرى نستخدم رُتب الصفحات الحالية 
كأصواتٍ لحساب رتب الصفحات الجديدة. ستكون العمليات الحسابية مختلفة قليلا في هذه المرحلة؛ 
GY‏ رُتب الصفحات الحالية ليست متساوية» ولكن الطريقة لم تتغيّر c e‏ ما يعطينا رتب Glade‏ جديدة 


ii) OILS‏ صفحة 801 هي ١/١‏ ورّتبة صفحة 802 هي i355 ١/١‏ صفحة 803 هي 
1/4 . تكرّر هذه الخطواتء أو التكرارات» حتى تتقارب الخوارزمية» وهذا يعني أن العملية تستمر 

على هذا المنوال حتى لا يكون هناك مجال لإجراء أي تغييرات أخرى بناءً على أي عمليات ضرب 
أخرى. وبعد الوصول إلى الترتيب النهائي» يمكن لخوارزمية «بيدج رانك» أن تختار الصفحة ذات 
الرتبة الأعلى لعملية بحث معينة. 


قذم بيدج وبرين» في أوراقهما البحثية الأصلية» معادلة لحساب رُتب الصفحات» تضمّنت معامل 
تخميد cg‏ والذي يُعرّف بأنه احتمالية أن ينقر متصفح ويب عشوائي على أحد الروابط في الصفحة 
الحالية. ومن cei‏ فإن احتمالية عدم نقر متصفح ويب عشوائي على أحد doled) fase dra‏ 
تساوي d)‏ -1)» ما يعني أن المتصفح العشوائي قد أنهى التصفح. ضمن معامل التخميد هنا أن ينتهى 
الحال بمتوسط رقب ا ت ي Accu diu sau‏ 
من الحسابات التكرارية. قال بيدج وبرين إن متوسط رتب الصفحات في موقع إلكتروني مُكوّن من 
۲ مليون رابط تحدد بعد OY‏ تكرارًا. 


مجموعات البيانات العامة 


FUA‏ الكثير من C UE‏ الوادت و els clas Pe‏ يمكن أن ae‏ الأفراد 
موضع سابق في هذا الفصل» ® Gat cs ES‏ الشهري لمؤسسة كومون كراول. 
الذي يستضيفه برنامج أمازون لمجموعات البيانات العامة ذ فى أكتوبر ۲۰۹٣‏ ۰ ما یزید على ۳,۲١‏ 
مليار صفحة ويب . تتضمّن مجموعات البيانات العامة مجموعة كبيرة من التخصّصاتهء بما في ذلك 
بيانات الجينوم» وصور الأقمار الصناعية» وبيانات الأخبار العالمية . وبالنسبة إلى أولئك الذين من 
غير المرجّح أن يكتبوا النصوص البرمجية بأنفسهم؛ توفر أداة جوجل للتحليل الإحصائي للكلمات 
(Google Ngram Viewer)‏ طريقة مشوّقة لاستكشاف te‏ من مجموعات البيانات الضخمة 
على نحو تفاعلي (انظر جزء «قراءات إضافية» لمعرفة التفاصيل). 


نموذج البيانات الضخمة 


Ud‏ سابقا Les‏ من طرق الاستفادة من البيانات الضخمة؛ وتحدّثنا في الفصل الثاني عن البيانات 
الصغيرة. بالنسبة إلى تحليل البيانات الصغيرة» يمكن استخدام الأسلوب العلمي على نحو راسخ 
تمامًا وينطوي بالضرورة على التفاعل البشري: شخصٌ (eel‏ لذهنه فكرة cle‏ ثم يضع فرضية أو 
نموذحًا Sus GS‏ طرقا لاختبار توقعاته. ele cS‏ الإحصاء الشهير جورج بوكس عام 
۹7۸‘ : «جميع النماذج . خاطئة» ولكن بعضها مفيد». وما يعنيه بهذه العبارة 9 النماذج الإحصائية 
والعلمية» بوجه عام» لا PB‏ تمثيلاتِ دقيقة للعالم من حولناء ولكن يمكن لنموذج فكري جيد أن يُقدّم 
Ul lade as‏ يجب أن ت تستند إليه التوقعات ويستخرج النتائج بطريقة موثوقة. Ol,‏ > كما أوضحنا 
سابقاء فإننا لا نتبع هذه الطريقة عند التعامل مع البيانات الضخمة. بدلا من asi celà‏ أن السيادة ADU‏ 
وليس للعالم. 


وصف توماس كون» في إحدى كتاباته عام cC Y‏ مفهوم الثورات العلمية التي تلي فتراتِ طويلة 
من العلم العادي عندما يطور riga)‏ ج حالي Us‏ من جميع جوانبه. وإذا ظهر عدد كافي من 
لاتخرافات التي لا يمكن حلها وتؤدي إلى تفويض أركان نظرية قائمةء ما يودي بالباحتين إلى فقذان 
الثقة فيهاء فإن هذا يُسمّى «أزمة»» وتحَل في نهاية المطاف بوضع نظرية جديدة أو نموذج فكري 
جديد. ولكي Ui‏ نموذج فكري جديدء فإنه لا بد أن Guat‏ عن بعض الأسئلة الإشكالية الموجودة في 
cs Sa c 3 gail‏ القديم. «(Ss‏ بوجه cele‏ لا يطمس النموذج الجديد النموذج السابق بالكامل. على 
سبيل المثال» غير التحؤّل من ميكانيكا نيوتن إلى النظرية النسبية لأينشتاين من نظرة العلم إلى 
colla‏ دون أن يطرح قوانين نيوتن Lille hei Gils‏ ميكانيكا نيوتن Alla.‏ خاضة من قظرية النسبية 
الأوسع نطاقا . كما يُمثل التحوّل من ale‏ الإحصاء الكلاسيكي إلى أساليب تحليل البيانات eae)‏ 
تغيّرًا كبيرّاء وتجتمع فيه الكثير من السمات المميّزة للتحوّل النوعي. edale‏ فإن الأمر يستلزم Uis.‏ 


دعونا نتناول أسلوب إيجاد ارتباطات في البيانات الضخمة» والذي يوفر وسيلة للتوقع £o‏ على قوة 
العلاقات بين المتغيّرات. من المتعارف عليه في ale‏ الإحصاء الكلاسيكي Gi‏ الارتباط لا يقتضي 
السببية . على سبيل «Ql‏ » قد يُسجّل مُعلم عدد مرات غياب أحد الطلاب عن المحاضرات ودرجات 
الطالب؛ ومن ca‏ عندما يجد ارتباطا واضحًا بينهاء قد يستخدم غياب الطالب في توقع درجاته. 
ولكن» لن يكون من الصائب أن يستنتج أن axe‏ مرات غياب الطالب سبب في تدني درجاته. لا 
كا a ja‏ السب في ار اط متغير بن bad ua‏ الى العمليات abus ll‏ اليج دة tecum‏ 
فربما الطلاب الأقل قدرةً على الاستيعاب يميلون إلى التغيّب عن الصف» وربما لا يمكن للطلاب 
الذين يغيبون بسبب المرض أن يعوّضوا ما فاتهم لاحقا. ومن ثم لا بد من التفاعل والتفسير البشري 
لتحديد أي الارتباطات مفيدة. 


فيما يخصٌ البيانات الضخمة» يؤدي استخدام الارتباطات إلى ظهور مشكلاتٍ إضافية. فإذا تناولنا 
مجموعة Cubs‏ هائلة» يمكن كتابة خوارزميات تؤدي — عند تطبيقها إلى عدد كبير من 
nd‏ الزائفة» التي تكون مستقلة تمامًا عن وجهات نظر أي إنسان أو آرائه أو فرضياته. تنشأ 
على سبيل المثال» معدلات الطلاق واستهلاك السمن النباتي» 
وه أكد GULLS YI‏ ار Ad‏ الكثيرة التي تحدثت عنها وسائل الإعلام. يمكننا أن نری مدى سشخف 
هذا الارتباط من خلال تطبيق الأسلوب العلمي. ولكن» عندما يصبح عدد المتغيّرات cd S‏ يزداد 
Lái‏ عدد الارتباطات الزائفة. تعد هذه إحدى المشكالات الرئيسية المصاحبة لمحاولة استخراج 
معلومات مفيدة من البيانات الضخمة؛ LY‏ عنذما نفعل Lath (ll‏ هو الخال مع cai‏ في انات 
الضخمة» فإننا عادة ما نبحث عن أنماط وارتباطات. وكما سنرى في الفصل الخامس» كانت هذه 
المشكلات هي أحد أسباب فشل توقعات خدمة «اتجاهات الأنفلونزا من جوجل». 


الفصل الخامس 
البيانات الضخمة والطب 


غيّر تحليل البيانات الضخمة من مجال الرعاية الصحية إلى SS‏ كبير. لم تدرك كامل إمكانات هذا 
المجال بعدء ولكنه يشمل التشخيص الطبيء وبالتنبؤ بالأوبئة» وقياس الاستجابة العامة للتحذيرات 
الصحية الحكومية» وتقليل التكاليف المرتبطة بأنظمة الرعاية الصحية. ولنبدأ بتناول ما أصبح يُسمَّى 
اصطلاحًا «معلوماتية الرعاية الصحية». 


jussit odis 


تُستخدم الأساليب العامة التي تحدّتنا عنها في الفصول السابقة في جمع البيانات الطبية الضخمة» 
وتخزينهاء وتحليلها. وبوجه (ale‏ تستخدم معلوماتية الرعاية الصحية وفروعها المعرفية العديدة, 
مل Aga gall‏ السريرية والمعاومائية الحيوية» cili‏ اغف ego yall ikea’ ide.) aiit‏ 
وتقليل التكاليف. لنتأمّل معايير تعريف البيانات الضخمة (التي ناقشناها في الفصل الثاني)» ‏ 
الحجم» cg “ills‏ والسرعة» والموثوقية ‏ ونرى كيف تنطبق على البيانات الطبية. يتحقق معيارًا 
الحجم والسرعةء على سبيل thal)‏ عند جمع البيانات المتعلقة بالصحة العامة عبر مواقع شبكات 
ual sill‏ الاجتماعي من أجل e‏ مسار الأوبئة» وق معيار التنوع عند تخزين سجلات 
المرضى بالتنسيق النصي» £l oes‏ أكان هيكليًا al‏ غير هيكلي», وكذلك عدد جح Be‏ أجهزة 
الاستشعار مثل البيانات التي la yagi‏ أجهزة التصوير بالرنين المغناطيسي» وَيُعَد معيار الموثوقية 
معيارًا أساسيًا في الاستخدامات الطبية» ويولي عناية فائقة بإزالة البيانات غير الدقيقة. 


قد تكون وسائل التواصل الاجتماعي مصدرًا قيمًا للمعلومات ذات الصلة في المجال الطبي» وذلك 
من خلال جمع البيانات من مواقع مثل فيسبوك وتويتر والمدوّنات المختلفة» ولوحات aus‏ الرسائل» 
وعمليات البحث على الإنترنت . يوجد الكثير من لوحات تبادل الرسائل التي تركز على موضوعات 
معينة في مجال الرعاية الصحيةء c‏ حيث تقدّم ثروةً من البيانات غير الهيكلية. Cran‏ منشورات على 
كل من موقعَي فيسبوك وتويترء باستخدام أساليب تصنيف مماثلة لتلك التي شرحناها في الفصل 
الرابعء لرصد تجربة التفاعلات غير المرغوبة تجاه الأدوية وتزويد مختصي الرعاية الصحية 
بمعلوماتٍ مفيدة بشأن تفاعلات الأدوية وإساءة استخدامها. أصبح للب يط الاك صر رسام 
التواصل الاجتماعي» لأغراض البحث في مجال الصحة العامة» ممارسة jin’‏ بها في المجتمع 
ان 


il ct: gcc 
الرعاية الصحية», لمختصي الرعاية الصحية فوائد فورية من حشد المصادر يكتسبونها من التعامل‎ 


مع أقرانهم. تتزايد شهرة مواقع تقديم المشورة الطبية عبر الإنترنت؛ ومن ثمَّ فإنها تنشئ المزيد من 
المعلومات. Lary‏ تكون مجموعة «السجلات الصحية الإلكترونية» المصدر الأهم بين تلك المواقع» 
وإن كانت إمكانية الوصول إليها غير متاحة للعامة. توفر هذه السجلات نسخة إلكترونية من التاريخ 
الطبى الكامل للمريض› بما T‏ ذلك التشخيصات cA ll‏ والأدوية gue gall‏ 648 وصور الأشعة 
الطبية مثل أشعة إكس» وجميع المعلومات الأخرى ذات الصلة التي جُمعَت بمرور الزمن» ومن ثم 
إنشاء «مريض افتراضي»» وهو مفهوم سنتناوله laa‏ في هذا الفصل. بالإضافة إلى استخدام 
البيانات الضخمة في تحسين رعاية المرضى وتقليل التكاليف» من خلال جمع المعلومات المتولدة 
i ce We‏ أصبح من الممكن التفكير في التنبؤ بمسار الأوبئة 
يثة الظهور. 


خدمة اتجاهات الأنفلونزا من جوجل 


تواجه GLY oll‏ المتحدة us‏ عام» شأن الكثير من الدول» وباء الأنفلونزا الذي يؤدي إلى زيادة 

الأعباء على الموارد الطبية وارتفاع الخسائر في الأرواح. تمثل بياناث الأوبئة السابقة المقدّمة من 

المركز الأمريكي لمكافحة الأمراض» وهو الوكالة المنوطة بمراقبة الصحة العامة» بالإضافة إلى 

أساليب تحليل البيانات الضخمة» القوة الدافعة لجهود الباحثين الرامية إلى التنبؤ بانتشار الأمراض 
من أجل تركيز الخدمات M y‏ من انتشار هذه الأمراض. 


بدأ فريق خدمة اتجاهات الأنفلونزا العمل على التنبؤ بأوبئة الأنفلونزا باستخدام بيانات محركات 
tala a m Vili clase: Sil les Chg rll lS ule: Lie cadi, eed‏ 
«نيتشر» العلمية المرموقة في فبراير ۹ شرح الفريق Aus Ga 5S)‏ كن ماني لبرامج 
لدى شركة جوجل ما كانوا بصدد تنفيذه. إذا أمكن استخدام البيانات في التنبؤ على نحو دقيق بمسا 

وباء الأنفلونزا السنوي في الولايات المتحدة لأمكنَ e| jal‏ المرض» وإنقاد الأرواح» ys‏ 
الموارد الطبية. تطرّق فريق جوجل إلى فكرة أن هذا الأمر يمكن تحقيقه من خلال جمع استعلا ea‏ 
RULES D ES‏ كن افر درا :و فظيلها. الك TOR iy ca‏ 
لاستخدام بيانات الإنترنت في التنبؤ بانتشار الأنفلونزا إلى أحد c gal‏ لا ثالث لهما: : Ud‏ أنها Sel‏ 
بالفشل» Úy‏ أنها جققت نجاحًا محدودا. d i c‏ البحث 
اة من اون zu [IC ea el‏ 


يجمع مركز مكافحة الأمراضء ونظيره البرنامج الأوروبي لرصد الأنفلونزاء البيانات من مختليف 
المصادرء بما في ذلك الأطباء الذين يقدّمون تقارير slacks‏ المرضى الذين يعالجونهم ولديهم 
Gal jel‏ شبيهة بالأنفلونزا. ولكن» بحلول الوقت الذي يتم فيه دمج هذه البيانات» يكون قد مر عليها 
bale‏ أسبوعان» ويكون الوباء قد ازداد mip eet]‏ باستخدام البيانات المجمّعة في الوقت الحقيقي من 
الإنترنت» كان فريق شركة جوجل ومركز مكافحة الأمراض يهدفان إلى تحسين دقة التنبؤات 


استعلامات qc ON‏ ا ا op ca Gp uie ga‏ 
طرق علاج الأنفلونزا وأعراضهاء والبيانات الوفيرة مثل الاتصالات الهاتفية التي أجريت بمراكز 
تقديم المشورة الطبية. واستطاعت جوجل الوصول إلى كمية هائلة من بيانات استعلامات البحث 
التي تجمّعت لديها خلال الفترة ما بين عامّي Ye Y‏ و۸٠٠٠‏ ومن خلال استخدام عناوين «آي 
بي»» أمكنّ تحديد الموقع الجغرافي الذي Ais LES‏ استعلامات البحث؛ ومن (S‏ تصنيف البيانات 
في مجموعاتٍ حسب الولاية. جُمِعَت بيانات مركز مكافحة الأمراض من عشر مناطق» تتضمّن كل 
منها البيانات التراكمية من مجموعة من الولايات (ule)‏ سبيل المثال» تشمل المنطقة التاسعة ولايات 

أريزوناء وكاليفورنياء وهاوايء ونيفادا)» gas y‏ هذه البيانات بعد ذلك في النموذج. 


Laie‏ مشروع اتجاهات الأنفلونزا من جوجل على النتيجة المعروفة بأن AS‏ ارتباطًا وثيقًا بين عدد 
عمليات البحث المتعلقة بالأنفلونزا على شبكة الإنترنت وعدد زيارات عيادات الأطباء. فإذا كان ثمة 
عدد كبير من الأشخاص في منطقة معينة يبحثون عن معلوماتٍ متعلقة بالأنفلونزا على شبكة 
الإنترنت» فريما أصبح بالإمكان توقع انتشار حالات الإصاية بالأنفلونزا في المناطق المجاورة لها. 
وبما أن الاهتمام ينصّب على تقدير الاتجاهات» أصبح من الممكن تجهيل البيانات؛ ومن e‏ م انتفت 
صضزورة الحصول على ol AY) Ail go‏ وباستخدام ييانتها التراكمية.على jaa‏ خم نرات والتى 
aia Jeeg‏ توم الو ول لا يلتك punc‏ 
Beaks o. aie dull cle gui‏ التي تغطي EN cu i e EID ias‏ استعلامات 
culla oda canal‏ مركز مكافحة الأمراطن: الخاضة با لفو تز of‏ واستحدمّت البيانات داك lel MI‏ 
الأعلى في نموذج تقدير اتجاهات الأنفلونزا. اختارت جوجل استخدام £o Jj‏ مصطلحًا من 
مصطلحات البحث المتعلقة بالأنفلونزا وأكثرها تكرارًاء ثم تتبّعتها في استعلامات البحث التي 
يُجريها الناس. وعلى الرغم من سرية القائمة الكاملة لمصطلحات البحث» فإنها تشمل» على سبيل 
المثال لا الحصير» lic Lay‏ الأنفلونزا»» 9 e‏ نزلة البرد/الأنفلونزا»» و«الأعراض العامة 
للأنفلونزا». شكلت البيانات ا ت خط ex) oa‏ على أساسه تأثير الأنفلونزا الحالي على 
مصطلحات البحث المختارة وبمقارنة بيانات الوقت الحقيقي الجديدة بهذه البيانات» وضع على 
مقياس من ١‏ إلى 5» حيث يعني العدد © الأكثر خطورة. 


ea ia APTE‏ وک ل لليانات الضخمة» في موسمَي الأنفلونزا للعام XAR‏ ]له Y‏ والعام 
ee ole w ce a a ce ۰1۲‏ الأنفلونزاء قورنت تبؤاتها 
en‏ لاتجاهات الأنفلونزا المستقاة من البيانات المتو افرة Sac Als‏ حالات الإصابة بالأنفلونزا gi‏ 
توصّلت إليه خوارزمية «اتجاهات الأنفلونزا من جوجل» مبالعًا فيه؛ حيث فاق العدد الفعلي بنسبة 
٠‏ بالمائة على الأقل خلال الأعوام ,التي استخدمّت فيها الخوارزمية. توجد أسباب عدة لعدم تجقيق 
هذا النموذج النجاح المأمول. فقد استبعدت (rax‏ مصطلحات البحث عمدا؛ لأنها لم توافق توقعات 
فريق البحث . والمثال الأشهر والأكثر تداولا على ذلك هو أن رياضة كرة السلة في المدارس 
الثانوية» التي يبدو أنها لا علاقة لها بالأنفلونزاء كانت رغم ذلك مرتبطة ارتباطا وثيقا ببيانات مركز 
مكافحة الأمراضء ولكنها استبعدت من النموذج. Cas‏ فال sss ales‏ المتغيّرء وهي العملية 


التي تختار فيها عوامل التنبؤ الأكثر ملاءمة» مشكلة مستعصية؛ ومن B‏ فإنها syed‏ باستخدام 
الخوارزميات تجنبًا للانحياز. حافظت جوجل على سرية التفاصيل الخاصة بخوارزميتهاء « مشيرة 
فقط إلى أن رياضة كرة السلة في المدارس الثانوية قد حلت ضمن أعلى ٠‏ مصطلح بحث 
استخدامّاء وبرّرت استبعادها بتوضيح أن كلا من الأنفلونزا وكرة السلة يبلغان الحد الأقصى لمعدّل 
الاستخدام في الوقت نفسه من العام. 


كما أشرنا سابقاء استخدمت جوجل خلال إنشاء النموذج الخاص بها £0 مصطلح بحث لتكون بمثابة 
عوامل تنبؤ بالأنفلونزا. ولو أنها استخدمت مصطلحَ بحثِ واحداء ك «الأنفلونزا» على سبيل «Gal.‏ 
لكانت معلوماتِ مهمة وذات le‏ مثل جميع عمليات البحث المتعلقة ب «علاج نزلات البرد»» قد 
مرّت دون ملاحظة أو توثيق. تزداد دقة التنبؤ مع الاستعانة بعددٍ CHS‏ من مصطلحات البحثء ولكن 

من الوارد أن تقل أيضًا إذا كان عدد مصطلحات البحث أكثر من اللازم. تستخدم البيانات الحالية 
كبيانات تدريبية لإنشاء نموذج يمكنه التنبؤ باتجاهات البيانات المستقبلية» ونظرًا لوجود عدد كبير 
للغاية من عوامل التنبؤ» لا يضمن في البيانات التدريبية للنموذج سوى حالاتٍ عشوائية قليلة؛ ومن 
ثم فإنه على الرغم من أن النموذج يتوافق جيدًا مع البيانات التدريبية» فإنه لا يمكنه تقديم تنبؤاتِ 
جيدة. يبدو أن هذه الظاهرة المتناقضة»› التي تُسمّى «الملاءمة المفرطة»» لم يضعها فريق العمل في 
اعتبارهم بما يكفي. Lay‏ كان استبعادٌ كرة السلة في المدارس الثانوية كأحد عوامل التنبؤ بسبب أنه 
n a ecce luce custo tcd‏ كي arate‏ 
مكافحة NOT‏ ولكنها لن تكون dhe oi‏ باتك هات الأنفلونزا. 


oe إلا أن التشخيصن‎ ee ei) يعانون‎ alas الأطباء‎ take ule dg 
استخدمتها جوجل» وجمعتها على نحو انتقائي من استعلامات محرّك البحث» اناج غير سايمة من‎ 
Y Q4 الذي نتج — على سبيل المثال — من استبعاد كل‎ «cal gll الناحية العلمية جراء التحيز‎ 
Lary يستخدمون محركات بحث أخرى. وثمّة مشكلة أخرى‎ (ya يستخدمون أجهزة الكمبيوتر وكل‎ 
eS ee 
«أعراض الأنفلونزا» ربما تصفحوا بالفعل عددا من المواقع الإلكترونية المتعلقة بالأنفلونزاء مما‎ 
e إلى حساب مرات استخدام هذا المصطلح وحده من مصطلحات البحث أكثر من مرة؛ ومن‎ sd 
تفاقم الأعداد. علاوة على ذلك» يتغيّر سلوك البحث بمرور الوقت» لا سيّما في فترات تفشي‎ sd 
الأوبئتة» ولا بد من وضع هذا الأمر في الاعتبار عن طريق تحديث النموذج بصفة دورية. عندما‎ 
تبدأ أخطاء التنبؤ في الظهورء فإنها تميل إلى التتابع» وهذا ما حدث مع تنبؤات «اتجاهات الأنفلونزا‎ 
من جوجل»: - انتقلت أخطاءُ أسبوع ما إلى الأسبوع الذي يليه. درست استعلامات البحث كما ظهرت‎ 
حسب الهجاء أو الصياغة وكا المثال الذي قدّمته جوجل على‎ Cle gene بالفعل» ولم تصدّف في‎ 
من عبارات «د لائل الأنفلونزا»» و«الدلائل على الأنفلونزا»» و«الدلائل على مرض‎ DS ذلك هو أن‎ 
الأنفلونزا» قد أحصي كل منها على حدة.‎ 


va‏ البحث» الذي يرجع تاريخه إلى موسم ۲١١۸-۷‏ للكثير من الانتقادات» التي كان 
alata (guitars‏ إلا أن الانتقادات كانت تتعلق gale‏ بافتقار الشفافية» على سبيل المثال» رفض 


الكشف عن كل مصطلحات البحث المختارة والإحجام عن قبول الطلبات المقدّمة من المجتمع 
الأكاديمي للحصول على معلومات. إن بيانات استعلامات محرك البحث ليست نتاج تجربة إحصائية 
«ALLA.‏ > كما أن إيجاد طريقة لتحليل هذه البيانات على نحو مُجدٍِ واستخراج معلوماتٍ مفيدة منها 
يُعد مجالا جديدًا a y‏ بالتحديات قد يستفيد من التعاون. في موسم 1۲ Ye VT‏ أدخلت جوجل 
Cd ux‏ كبيرةً على خوارزمياتهاء Slay‏ في استخدام أسلوب رياضي جديد ceed uad‏ 
«الاستيكنت»؛ أي الشبكة المرنة» والذي يوفر وسيلة دقيقة لاختيار عوامل التنبؤ اللازمة وتقليل 
عددها. عام ١‏ بدأت جوجل مشروعًا مماثلا QHD‏ مسار od‏ الضَّنكء ولكنها لم تَعْد تنشر 
تنبؤاتِ حيالهاء وعام e Y YO‏ إيقاف مشروع اتجاهات الأنفلونزا من جوجل. ولكنها أصبحت OW!‏ 
تشارك بياناتها مع الباحثين الأكاديميين. 


قدم مشروع اتجاهات الأنفلونزا من جوجل» إحدى المحاولات الأولى لاستخدام البيانات الضخمة في 
التنبؤ بالأوبئة» أفكارًا مفيدة للباحثين الذين شرعوا في عملهم بعد هذا المشروع. وعلى الرغم من أن 
نتائج المشروع لم ترق لمستوى التوقعات» ذ فمن الوارد فيما يبدو أن تظهر في المستقبل طرق أفضلء 
Maic y‏ ستتحقق الإمكاناث الكاملة للبيانات الضخمة في مجال 35 تتبع مسار الأوبئة. أجريت إحدى هذه 
المحاولات على يد فريق من العلماء من مجر لوس P‏ الوطني في الولايات المتحدة 
باستخدام Gilly‏ من موسوعة ويكيبيديا. وفاز فريق دلفي البحثي في جامعة كارنيجي ميلون بتحدي 
مركز مكافحة الامراض تحت عنوان نبا بالانفلونزا» عن موسمّي 50١5-50١5‏ 
و5 3٠5-70١‏ لاختيار أفضل خبراء التنبؤ. نجحَ الفريق في استخدام بياناتِ من dase‏ وتويتر 
وويكيبيديا لمراقبة حالات تفشي الأنفلونزا. 


تفشي وباء الإيبولا في غرب أفريقيا 


شهد dal‏ قديمًا ESI)‏ من الأوبئة؛ فقد قتلت الأنفلونزا الإسبانية ٠۹١۸ gale‏ -۱۹۱۹ ما يتراوح 
بين Y*‏ و٠٥‏ مليون (aad‏ وبلغ إجمالي عدد الإصابات وقتها نحو ٠٠١‏ مليون نسمة. كانت 
المعلومات المتوافرة عن الفيروس قليلة للغاية» ولم يكن هناك علاج مجدٍء وكانت استجابة الصحة 
العامة محدودة» وهو Sl‏ يرجع بلا شك إلى نقص المعرفة. تغيّر هذا الوضع عام ۸ بالافتتاح 
الرسمي لمنظمة الصحة العالمية» التي تولت مسئولية مراقبة الصحة العالمية وتحسينها من خلال 
التعاون والتضافر بين دول العالم. في الثامن من أغسطس عام ٠۲۰٠٤‏ في اجتماع هاتفي عن بُعد 
ele ae o uelim‏ له كلتك متلق ey uidi E ess‏ 
غرب أفريقيا أصبح يشكل رسميًا «طارئة صحية عامة i‏ تثير «Gs Gl‏ وطبقا للتعريف الذي قدمته 
منظمة الصحة العالمية لهذه العبارة؛ (à‏ تفشي الإيبولا قد JSS‏ «حددًا استثنائيا» يستوجب جهودًا 
bud‏ غير مسبوقة لاحتوائه؛ ومن cai‏ تفادي حدوث وباء. 


وسيراليون ولييرياء sa‏ عا مختلفة من المشكلات i Jia‏ بمشكلات تشي وباء الأنفلونزا (cia‏ 
في الولايات المتحدة. كانت البيانات التاريخية عن فيروس الإيبولا Ud‏ غير موجودة وإمّا غير مفيدة؛ 


ay‏ لم Jud‏ من قبل تف تفش بهذا الحجم لهذا الفيروس» وعليه» ظهرت الحاجة لوضع استراتيجيات 
جديدة للتعامل معه. وعلى ضوء معرفة تحركات السكان التي من شأنها أن تساعد العاملين في مجال 
الصحة العامة في مراقبة انتشار الأوبئة» كان يُعتقد أنه يمكن استخدام المعلومات التي تمتلكها 
شركات الهواتف المحمولة في متابعة حركات السفر في المناطق الموبوءة» وتطبيق «el pal‏ على 
غرار فرض قيود على السفرء من شأنها أن تحتوي الفيروس؛ ومن (S‏ إنقاذ الأرواح. كان من 
المفترض في riya‏ ج التفشي في الوقت الحقيقي الناتج أن Letty‏ بالأماكن التي على الأرجح ا 
فيها المر a‏ بعد ذلك ومن فة تركيز الموارد EL‏ لذلك. 


Cj‏ المعلومات الرقمية التي يمكن جمعها من الهواتف المحمولة أوليةٌ بعض الشيء؛ رقم هاتف كل 
من المتصل والمتصّل بهء وموقع تقريبي للمتصل؛ فالاتصالات e‏ تجرّى باستخدام الهاتف 
المحمول تنشئ سبجلا يمكن إستخدامه في تقدير موقع المتصل ely‏ على برج الاتصالات المُستخدم 
لكل PN‏ فرك الكو GLA styl)‏ عمد احق اكات "WORDPRESS AIS‏ 
هاجسًا حقيقيًا؛ نظرًا لإمكانية الاستدلال على الأشخاص الذين لم يوافقوا على تتبّع مسار مكالماتهم 
وتحديد هُويتهم. 


في بلدان غرب, أفريقيا التي caus‏ بتفشي الإيبولاء لم تكن كثافة استخدام الهواتف المحمولة متماثلة؛ 
حيث GIRS‏ أقل النسب في المناطق الريفية الفقيرة. على eal Gans‏ كان ja Le‏ د قليلا كن تف 
العائلات في ليبيريا وسيراليون عام eYMY‏ وهما دولتان من e J gall‏ تأثرت 5 مباشرًا 
بتفشي Y sy‏ عام ٠٤‏ لديه هواتف محمولة؛ ومع ذلك كانت البيانات التي قدّموها كافية لتتبع 
EE‏ 


الصحة العامة التي تور في دول oe‏ الأكثر فقرًا. eae‏ ا لجيه 

تستخدم بيانات شركات اتصالات الهواتف المحمولة في eS‏ حركة السكان في بيئة حافلة بالتحديات 
الطبية» وذلك ضمن مبادرة أطلقتها منظمة الصحة العالمية للقضاء على مرض الملاريا؛ ومن «e‏ 
كانت asd‏ الاختيارات البديهية للتعامل مع أزمة الإيبولا. استخدم فريقٌ دوليٌ بارز البيانات التاريخية 
Seal‏ في adiu D oe‏ السكان في المناطق الموبوءة بالإيبولا. لم تكن هذه البيانات 
التاريخية مُستخدمة على نطاق واسع؛ نظرًا لتغيّر سلوكيات السكان في فترات الأوبئة» إلا أنها 
أعطت مؤشراتٍ قوية عن الأماكن التي سيميل الناس إلى السفر إليها في حالات الطوارئ. ay‏ 
سجلات نشاط أبراج الهواتف المحمولة تفاصيل عن أنشطة السكان في الوقت الحقيقي. 


ومع ذلك؛ جاءت أرقام تنبؤات تفشي الإيبولا التي نشرتها منظمة الصحة العالمية أعلى بما يزيد عن 
٠‏ بالمائة من الحالات المُسجّلة فعليًا. 


تشابهت المشكلات الخاصة بتحليلات اتجاهات الأنفلونزا من dase‏ والإيبولا في أنَّ خوارزميات 
التنبؤ المستخدمة في كليهما كانت تعتمد فقط على البيانات الأولية» ولم تأخذ في اعتبارها Cag yall‏ 
المتغيرة. افترض كل من هذين النموذجّين» بصفة أساسيةء أن aae‏ حالات الإصابة سيواصل 


الارتفاع بالمعدل نفسه في المستقبل مثلما حدث قبل بدء التدخل الطبي. ومن الواضح أنه كان يُتوقع 
أن تكون للتدابير الطبية وتدابير الصحة العامة تأثيراتٌ إيجابيةء ولكنها لم نُضمّن في النموذج. 


EEE‏ ال إصابة بفيروس زيكاء الذي aliti‏ البعوضة Agel jl)‏ عام ۱۹٤١‏ في أوغنداء ثم انتشر 
بعيدًا عن مكان الإصابة الأولى ليصل إلى آسيا والأمريكتين. ol‏ تفشي فيروس زيكا الحاليء الذي 
بدأ في البرازيل عام ٠٠٠٠١‏ إلى ظهور حالة أخرى من طوارئ الصحة العامة التي تثير قلقا دوليًا. 
كانت ثمّة دروس مسنفادة من العمل الذي ald‏ به مشروع اتجاهات الأنفلونزا من جوجل وخلال 
تفشي الإيبولاء تتعلق بإعداد النماذج الإحصائية باستخدام البيانات الضخمة» وأصبح من المُتقق عليه 
عمومًا الآن ضرورة جمع البيانات من مصادر متعددة. ولعلك تتذكر أنَّ مشروع اتجاهات الأنفلونزا 
من جوجل جمع البيانات من محرك بحث جوجل فقط. 


زلزال نيبال 


إذن» ما مستقبل تتبّع مسار الأوبئة باستخدام البيانات Pass al € A aA Al‏ خصائصض الوقت الحقيقي 
E pos l TARS aes maa‏ ايداف في مراقبة oa‏ السكان a‏ 
s 3 À ps‏ لو meni‏ بالإضافة إلى sale:‏ من ET‏ ساوثامبتون 
وأكسفورد» فضلا عن مؤسساتٍ في الولايات المتحدة والصين» بعد زلزال نيبال الذي وقعٌ في 
الخامس والعشرين من أبريل عام 5 » سجلات تفاصيل مكالمات الهواتف المحمولة في تقديم 
تقديرات لحركة السكان. نسبة كبيرة من سكان نيبال لديهم هواتف «A gone‏ وباستخدام البيانات 
المُجَهّلة BY‏ عشر مليون مشترك في الخدمةء تمكن فريق مؤسسة فلومايندر من gÅ‏ حركة السكان 
خلال تسعة أيام من وقوع الزلزال. ترجع هذه الاستجابة السريعةء في جزءٍ منهاء إلى وجود اتفاق 
سار مع مزوّد الخدمة الرئيسي في دولة نيبال» والذي استكمِلت تفاصيله الفنية قبل أسبوع واحد فقط 
من وقوع الكارثة. ونظرًا لوجود خادم مخصّص تبلغ السعة التخزينية لقرصه الصلب ٠١‏ تيرابايت 
في مركز بيانات qoas ja‏ الخدمة» تمكن ن الفريق من بدء العمل على الفورء ما أذى إلى إتاحة 
المعلومات أمام مؤسسات الإغاثة من الكوارث في غضون تسعة أيام فقط من وقوع الزلزال. 


البيانات الضخمة والطب الذكي 


في كل مرة يزور مريض عيادة طبيب أو مستشفّى» تَجِمَع Gilly‏ إلكترونية بصفة روتينية. تشكل 
السجلات الصحية الإلكترونية الوثيقة القانونية لجهات اتصال الرعاية الصحية الخاصة بالمريض؛ 
ذلك Cus‏ تسجّل تفاصيل على غرار التاريخ الطبي للمريضء والأدوية الموصوفة» ونتائج 
الفحوصات. ومن الوارد أيضًا أن تشمل السجلات الصحية الإلكترونية بيانات أجهزة الاستشعار» 


مثل فحوصات التصوير بالرنين المغناطيسي. وقد تجهل البيانات ais‏ لأغراض بحثية. كانت 
هناك تقديرات تشير إلى أنه بحلول عام 5 ستخرّن المستشفى العادية في الولايات المتحدة ة ما 
يزيد عن ٠٠١0‏ تيرابايت من البيانات» أغلبها بيانات غير هيكلية. وكان pud AA‏ 
في هذه البيانات للحصول على معلوماتٍ من شأنها تحسين رعاية المرضى وتقليل التكاليف؟ ما 
as.‏ باختصار اننا أخذنا البيانات» él‏ الهيكلية أو غير الهيكلية؛ وحدّدنا السمات ذات الصلة 
في إعداد mi igs‏ ات الخاضة اة TE dice mai‏ بالتنسيق النصي 
Du E MU‏ هذه 9e cally pre e uh‏ استخدام أساليق معالجة Ed‏ 
الجزء التالي. 
طبقًا لشركة آي بي cal‏ كان المتوقع بحلول عام ٠ Ye‏ أن تتضاعف كمية البيانات الطبية كل VY‏ 
Úgy‏ ومع تز اید استخدامها في مراقبة الأصحاءء أصبحت الأجهزة القابلة للارتداء تستخدم على 
نطاق واسع في حساب عدد الخطوات ceil!‏ خط كل te s‏ وقياس احتياجاتنا من السعرات 
الحرارية وموازنتهاء ومتابعة أنماط النوم لديناء وكذلك تقديم معلومات فورية عن معدل نبضات 
القلب وضغط الدم. بعد ذلك» ترقع المعلومات المُجمّعة على أجهزة الكمبيوتر وتحفظ السجلات على 
نحو خاص» أو كما هو asl Qu‏ — تجري مشاركتها طوعًا مع أصحاب العمل . سيوفر هذا 
التتابع الواقعي للبيانات المتعلقة بالأفراد للعاملين في مجال الرعاية الصحية بيانات AR‏ عن الصحة 
العامة» كما سيوفر وسيلة لملاحظة التغييرات التي تطرأ على الأفراد والتي قد تساعد في Gad‏ 
الأزمات القلبية» على سبيل المثال. كما j‏ البيانات المتعلّقة بفئات السكان ستمكّن الأطباءً من تتبُع 
الأعراض الجانبية el sl‏ معين» على سبيل المثال» ely‏ على خصائص المرضى. 


بعد اكتمال مشروع الجينوم البشري عام Gal ٠٠٠٠۳‏ أهمية البيانات الوراثية بوصفها جزءًا من 
السجلات الطبية للأفرادء كما ستقدّم ثروةً من البيانات البحثية . كان الهدف من مشروع الجينوم 
البشري وضع خريطة بكل الجينات البشرية. يطلق على المعلومات الوراثية للكائن الحي مجتمعة 
اسم الجينوم. يحتوي الجينوم البشريء إجمالاء على حوالي ٠١‏ ألف جين»ء ويتطلب وضع خريطة 
لهذا الجينوم نحو ١٠٠جيجابايت‏ من البيانات. ممّا لا شك فيه أنَّ هذا المجال من أبحاث الوراثة هو 
مجال شديد التعقيد والتخصّص والتشعُبء إلا أن النتائج المترتبة على استخدام أساليب تحليل 
البيانات الضخمة ت تسترعي الاهتمام. ومن ثم حُفِظّت المعلوماث التي جُمعَت عن الجينات في قواعد 
بياناتِ ضخمة؛ ولذاء ظهرت مؤخرًا مخاوف من احتمالية تعرض هذه المعلومات للقرصنة؛ مما 
i‏ إلى تحديد هويات pos ala onl ga‏ النووي. وقدّم e‏ بأنه» ual ey‏ 
uum s‏ الطبية. dies PUE‏ المعلوماتية i sl‏ المتعدّد eis)‏ متنا Ss as‏ إلى 
إدارة البيانات الضخمة الناتجة جة عن علم الجينوم وتحليلها. وتزايدت سرعة التسلسل الجيني وقلت 
ls‏ كثيرًا خلال السنوات الأخيرة؛ ومن ثم أصبح الآن وضع خرائط لجينوم الأفراد أمرًا مكنا 
الجينوم البشري الأول ما يقارب Y.‏ ملايين دولار. وبدأت الكثير من الشركات الآن في عرض 
خدماتها في مجال تحديد تسلسل الجينوم على الأفراد بأسعار معقولة. 


عرص qi‏ على أجيزة لك يوتر dD id‏ محاكة مرق العلا Seg‏ 
وبمقارنة هذه البيانات بأعراض مماثلة أو تفاصيل طبية ذات Abe‏ يمكن للنموذج المُعَّد باستخدام 
eus E eus‏ ترك الذي انه y‏ تتضمّن طريقة علاج لمريض بعينه. $e‏ على «dll‏ 

تستخدم أساليب التنقيب في ee a‏ المحاكاة Sed‏ لإضفاء m‏ 
ie (Ne m am‏ رقع ان بحري Ed d din‏ 
المعلومات التي تخصٌ مريصًا فعليًاء والتي تحدّث ola‏ لبيانات الأجهزة الذكية. ولكن» cud SSRs‏ 
البيانات Gast‏ كبيرًا على نحو متزايد أمام المشروع. 


عام ٠۲۰۰۷‏ قرّرت شركة آي بي إم أن تنشئ جهاز كمبيوتر تتحدّى به أقوى الشركات المنافسة لها 
في برنامج المسابقات «جيوباردي»» الذي يُعرّض على شاشة التلفزيون الأمريكي. وضع واتسون» 
وهو نظام لتحليل البيانات الضخمة GAS A‏ بمؤسّس شركة آي بي ٳم» توماس جون واتسون؛ في 
مواجهة اثتين من أبطال برنامج جيوباردي: براد روتر» صاحب سلسلة فوز متتالية بلغت VE‏ مرة 
وكين جينينجز» الذي حصد إجمالي مبلغ 5 ملايين دولار أمريكي. جيوباردي هو برنامج 
مسابقاتِ يعظي فيه مضيف البرنامج e Aa»‏ وعلى المتسابق أن يخمّن «السؤال». تجرى المسابقة 
بين ثلاثة متسابقين» وتندرج الإجابات أو أدلة الإجابة ضمن Bae‏ فئات على غرار (egli‏ 
والرياضةء وتاريخ العالم إلى جانب GU‏ غير مألوفة أو She Ay ye‏ «قبل وبعد». على سبيل 
IY <td‏ كان dal dila‏ رموه old gio yl aab‏ كيب quà gle Ci itas glade‏ 
ووطني» وطبیب» وأدیب» ۷-۱۸١۹ gla YY‏ يوليو AY‏ فستكون الإجابة: Qe»‏ هو السير 
آرثر GUS‏ دويل؟». وفي الفئة الأقل وضوحًا «اقبض على هؤلاء الرجال»» إذا كان دليل الإجابة: 
«مطلوب القبض عليه في ۹ جريمة قتل» Sá‏ هذا الرجل المولود في بوسطن عام 5 »؛ وألقي 
القبض عليه أخيرًا في سانتا مونيكا عام e Y 0١‏ فستكون الإجابة: : Um‏ هو وايتي بولجر؟» Cá‏ 
أدلة الإجابةء Ae M‏ ل 


الكمبيوتر» وكانت cia gleall CER LANES dais e‏ 
gll ALU‏ ضول Gall‏ :و استرجاعها بسهولة» fied‏ هذا الأمر مشكلة في مجال تعلم الآلة. بدأ فريق 
الأبحاث عمله بتحليل أدلة الإجابة الخاصة بمسابقة جيوباردي طبقا لنوع الإجابة المعجمي» الذي 
es‏ نوع الإجابة المُحدّد في الدليل. في المثال الثاني الذي «eU Sd‏ نوع الإجابة المعجمي هو 
«المولود في بوسطن». Ud‏ المثال الأول» فلا يوجد فيه نوع إجابة معجمي؛ إذ لا ay‏ الضمائر هذه 
العملية كثيرًا. وبتحليل ٠6‏ ألف دليل Ae dau‏ فريق ٠ cele a aol‏ نوع إجابة معجمي 


فريدء إلا أن هذا العدد لم يغط إلا حوالي نصف أدلة الإجابة فقط. بعد ذلك» يحلل دليل الإجابة لتحديد 
الكلمات الرئيسية والعلاقات بينها. ورج المسثندات ذات الصلة من بيانات الكمبيوتر الهيكلية 
وغير الهيكلية ويْبحَث فيها. وتوضّع فرضيات sly‏ على التحليلات المبدئية» وبالبحث في أدلة إجابة 
أكثر غمقاء يُعدّر على الإجابات AURA‏ 


للفوز بمسابقة جيوبارديء كان لا بد من استخدام الأساليب السريعة المتطوّرة jad: Lad‏ معالجة 
اللغات الطبيعية» وتعلم , ANI‏ والتحليل الإحصائي. وكان من بين العوامل الأخرى الواجب مراعاتها 
الدقة واختيار الفئة . وأنشئ معيار للأداء المقبول باستخدام بيانات الفائزين السابقين. وبعد عدة 
محاولات» جاء الحل في صورة تحليل عميق للأسئلة والأجوبةء أو ما cu» qus‏ كيو إيه»» وهو 
عبارة عن دمج للكثير من أساليب الذكاء الاصطناعي. يستخدم هذا النظامُ مجموعة كبيرة من أجهزة 
الكمبيوتر» التي تعمل بالتوازي ولكنها ليست متصلة بالإنترنت» ويعتمد على الاحتمالية وبراهين 
الخبراء. بالإضافة إلى التوصل إلى إجابة» يستخدم واتسون خوارزميات حساب حَد الثقة لإتاحة 
إمكانية العثور على أفضل نتيجة. ولا يُشير واتسون إلى أنه جاهز لإعطاء الإجابة إلا عندما يصل 
إلى as‏ الثقة المُعيّنء وهو ما يكافئ ضغط المتنافس البشري على زر الجرس. تمكن واتسون من 
هزيمة بَطلي جيوباردي. واستشهد بمقولة جينينجزء الذي تقبّل الهزيمة بصدر رحب» حيث قال: 
QA»‏ جانبي» cx j ula‏ بسادتنا dal)‏ من أجهزة الكمبيوتر». 


يسترجع نظام واتسون الطبي» القائم على نظام واتسون الأصلي الخاص بمسابقة جيوباردي» كلا 
من البيانات الهيكلية وغير الهيكلية ويحللها. eee ee iy‏ 
بالأساس نظام يجري نمذجة لعمليات التفكير البشري في مجال One‏ تعتمد التشخيصات الطبية 
على كل المعلومات الطبية المتوافرة» والتي تكون مُثبتة بالأدلة ودقيقة إلى SAM‏ الذي تكون معه 
المُدخلات دقيقة ومتسقة وتتضمّن جميع المعلومات ذات الصلة . يتمتع الأطباءُ البشريون بالخبرة 
ولكنهم غير معصومين من الخطأء وبعضهم بارع في التشخيص أكثر من غيره. تشبه هذه العملية 
الآلية Axial‏ في نظام واتسون الخاص بمسابقة جيوباردي» cu‏ تو SA‏ في الاعتبار جميع 
المعلومات ذات الصلة و تغط التشخيصات مع تحديد درجة ثقة لكل منها. وتسمح تقنيات الذكاء 
الاصطناعي died!)‏ في نظام واتسون بمعالجة البيانات Ley CAR AM‏ في ذلك الكميات الهائلة 


الناتجة عن التصوير التشخيصي الطبي. 

أصبح كمبيوتر واتسون العملاق Úlla‏ نظامًا متعدّد التطبيقات؛ وحقق نجاحًا تجاريًا Mile‏ علارة 
على ذلك» يشارك واتسون في الجهود الإنسانية» ويحدث هذا على سبيل Sell‏ — من خلال 
نظام تحليلاتِ مفتوح المصدر طوّر خصوصًا للمساعدة في تتبّع انتشار الإيبولا في دولة سيراليون. 


خصوصية البيانات الطبية الضخمة 


Sb‏ بوضوح أن البيانات الضخمة لديها القدرة على التنبؤ بانتشار الأمراض وتخصيص طرق 
العلاج» ولكن» ماذا عن الوجه الآخر للعُملة: خصوصية البيانات الطبية للأشخاص؟ مع تزايد 


anie cg ar ca aS 
CREME الهجمات او الإنترنت. ثمّة الكثير من القضايا الأخلاقية والقانونية‎ 
تناولها في هذا الكتاب.‎ 


3 = البيانات الصادرة من أحد أجهزة متابعة اللياقة البدنية متوافرة لأحد أصحاب العمل» 
وتستخدم: Ul‏ بصورة إيجابية» مثل تقديم علاواتِ لمن يستوفون معايير معينة» By gens Ú g‏ سلبية؛ 
مثل تحديد أولئك الذين يُخفقون في تلبية المعايير المطلوبةء الأمر الذي قد يؤدي إلى تسريح العمالة 
غير المرغوب فيها. في سبتمبر ٠٠١٠١‏ نشر فريق أبحاث مشتركء مُكوّن من علماء من جامعة 
دارمشتات للتكنولوجيا في ألمانيا وجامعة بادوا في إيطالياء نتائج دراسة Ua gyal‏ على Gal‏ بيانات 
أجهزة متابعة اللياقة البدنية. المقلق في الأمر أنه من بين ۱۷ جهازًا خضع للاختبار» جميعها من 
مرغي متختلفيت» »لم يكن ol‏ منها Lis go‏ بما يكفي لإيقاف التغييرات الجاري إدخالها على البيانات» 


وأربعة أجهزة فقط هي التي اتخذت Sle! pal‏ للحفاظ على AS gi ge‏ البيانات» وتمكن ese‏ الفريق 
من تجاوزها Layer‏ 


في سبتمبر ٠۲١٠١‏ بعد دورة الألعاب الأولمبية في ريو دي جانيروء والتي تقرّر حظر معظم 
الرياضيين الروس منها بعد تقارير موثقة عن برنامج لتعاطي المنشطات تديره الدولةء تعرّضت 
السجالات الطبية لرياضيين «OLS‏ من agin‏ الشقيقتان ويليامزء وسيمون بايلز» وكريس فرومء 
للاختراق» وتم الكشف عنها Úle‏ بواسطة مجموعة من قراصنة الإنترنت الروس على موقع Fanc‏ 
.yBears.net‏ لم تكشف هذه السجلات الطبيةء التي كانت في حوزة الوكالة العالمية لمكافحة 
المنشطات (المعروفة ب «وادا») على نظام إدارة البيانات الخاص بها الذي يُدعَى «أدامز» (نظام 
إدارة وتنظيم مكافحة المنشطات)» سوى استخدامات استثنائية لأغراض case.‏ وعليه فهي لم تين 
ca Gl‏ الرواصيين الاين تعر ضرا sail‏ روي ومن es pall‏ أن eI‏ اق اولي لنظام Ja‏ 8 
هذا ذا الأسلوب: الذي يبدو فيه أن رسال إلكترونية مرسلة من مصدر كبير موثوق داخل المؤسسة 
يتم تنزيله. 


أصبحَ تحصين قواعد البيانات الطبية الضخمة ضد الهجمات الإلكترونية» وما يترتب عليه من 
ضمان خصوصية المرضىء هاجسًا متناميًا. يجوز قانوتًا an‏ البيانات الطبية الشخصية المُجهلةء 
ولكن من الممكن في بعض الأحيان تحديد هُويّات المرضى. في ممارسة قيمة تهدف إلى الكشف عن 
الثغرات الأمنية في البيانات التي من المفترض أن تكون آمنةء تمكنت عالمتان من مختبر هارفارد 
لخصوصية TR EET‏ هما لاتانيا coh‏ وجي سو يوء باستخدام بيانات طبية «مشفرة» (أي إنها 
A a g Alia‏ حتى لا يمكن قراءتها بسهولة»› انظر الفصل السابع)؛ متاحة بصفة cy pli‏ 
ومنشأها كوريا الجنوبية» من فك تشفير معرّفاتِ فريدة في السجلات» وتحديد هويات المرضى من 
Gái ja SLA‏ والستحاتة Dalal}‏ 1 


تعد السجلات الطبية بالغة القيمة لدى المجرمين الإلكترونيين. عام ٠١٠١‏ أعلنت شركة أنثيم 
للتأمين الصحي أن acl ji‏ بياناتها قد تعرّضت للاختراقء ما أثر على بيانات أكثر من ٠‏ مليون 
شخص. تعررّآضت caus‏ مهمة لتحديد هویات الأشخاص» مثل الاسم» والعنوان» ورقم التأمين 
الاجتماعي» للاختراق على يد ديب بانداء وهو فريق صيني من المخترقين الإلكترونيين» باستخدام 
كلمات مرور مسروقة للوصول إلى النظام وتحميل برنامج ضار من نوع حصان طروادة. الخطير 
في الأمر أن أرقام التأمين الاجتماعي» أحد المعرّفات الفريدة من نوعها في الولايات المتحدة 
الأمريكية» لم تكن مُشفرة» الأمر الذي ترك Vlas‏ واسعًا لاحتمالية سرقة الهويات. jag‏ الكثير من 
الاختراقات الأمنية بأخطاء بشرية: مثل الانشغال وعدم ملاحظة التغيّرات الطفيفة في محدّدات 
مواقع الويب «يو آر إل»» وفقدان أجهزة على غرار CAS jae‏ الأقراص المحمولة أو سرقتهاء أو 
حتى في بعض الأحيان إحلالها بأخرى تحتوي على برامج ضارة تُحمّل على الفور بمجرد أن يضع 
موظف غير مرتاب الجهاز في منفذ «يو إس بي». ويكون كذلك الموظفون المستاءون» وأخطاء 
الموظفين غير المقصودة:؛ هي المتهم الرئيسي فيما يقع من تسريباتٍ للبيانات لا حصر لها 


بدأت التحفيزاث الجديدة لاستخدام البيانات الضخمة في مجال إدارة الرعاية الصحية تُطلّق بمعدّل 
متزايد من قبل مؤسساتٍ ذات شهرة عالمية على غرار مجموعة مايو كلينيك» ومجموعة جونز 
هوبكنز الطبية في الولايات المتحدة الأمريكية» وهيئة الخدمات الصحية الوطنية في المملكة 
المتحدة» ومستشفى جامعة كليرمون فيران في فرنسا. منحت الأنظمة المستندة إلى الحوسبة السحابية 
المستخدمين المُصرَح لهم بإمكانية الوصول إلى البيانات من أي مكان في العالم. وإذا ذكرنا مثالا 
واحدا على ذلك» فسيكون daw Lbs‏ الخدمات الصحية الوطنية لإتاحة سجلات المرضى عبر 
sell‏ اتف المحمولة بحلول عام ۰1۸ . وكان 3 ps‏ هذه التطورات أن تتسبّب» «Alla Y‏ في 
المزيد من الهجمات على البيانات التي تستخدمهاء مع إدراك ضرورة بذل جهود كبيرة لتطوير 
لاليب أمان فعالة لمان اة هذه m‏ 


البيانات الضخمة والشركات الكبرى 


في عشرينيات القرن العشرين» وظفت شركة جيه ليونز وشركائه» وهي شركة بريطانية تمتلك 
سلسلة مطاعم وشركات أغذية وفنادق» تشتهر بسلسلة مقاهي «كورنر هاوس»› ele‏ ریاضیاتِ 
الو E‏ لتولي أعمال الإحصاء. عام €۷ de ji‏ كل من 
رايموند تومسون وأوليفر ستاندينجفوردء اللذين عيّنهما سيمونزء في زيارة إلى الولايات المتحدة 
الأمريكية لتقصي الحقائق. وخلال هذه الزيارة» تعرّفا للمرة الأولى على أجهزة الكمبيوتر 
الإلكترونية وقدرتها على إجراء العمليات الحسابية الروتينية. وسعى jigami‏ منبهرًا بنتائج 
الزيارة» لإقناع ليونز بشراء جهاز كمبيوتر. 


أثمر التعاون مع موريس ويلكس؛ الذي كان منخرطا في ذلك الوقت في 3 تصميم الكمبيوتر Ts‏ 
لتخزين التأخير orig Suh‏ فى جامعة tees‏ وحن كسوان oer Juni‏ كان هذا 
الكمبيوتر يعمل باستخدام البطاقات المُثقبة» واستخدم لأول مرة عام ١‏ من قبل شركة ليونز في 
el yal‏ العمليات الحسابية الأساسيةء مثل جمع أعمدة تحتوي على أرقام. وبحلول عام 110 
أسّست شركة ليونز شركتها الخاصة لأجهزة الكمبيوترء وبدأت في تصميم كمبيوتر ليونز المكتبي 
الإلكتروني الثاني» dacs‏ كمبيوتر ليونز المكتبي الإلكتروني الثالث. وعلى الرغم من أن بداية العمل 
بأجهزة الكمبيوتر المكتبية الأولى Cele‏ في وقت مبكرء في خمسينيات القرن العشرين» فإن هذه 
الآلات الأولى لم تكن (A8 ga‏ وكانت تطبيقاتها محدودة؛ بسبب استخدامها للصمامات V)‏ آلاف 
صمام في حالة كمبيوتر ليونز المكتبي الإلكتروني الآول) والشرائط الممغنطة» وسعة التخزين 
المحدودة للغاية لذاكرة الوصول العشوائي. اشتهر كمبيوتر ليونز المكتبي الإلكتروني الأول على 
نطاق واسع بأنه كمبيوتر إدارة الأعمال الأول» الأمر الذي aga‏ الطريق أمام التجارة الإلكترونية 
الحديثة» وبعد عدة عمليات دمج مع «s M CAS VÀ‏ أصبح في نهاية المطاف جزءًا من شركة 
إنترناشونال كمبيوترز ليمتد حديثة التكوين عام AATA‏ 


Aa‏ 3 الالكترونية 


لم OS‏ أجهزة كمبيوتر ليونز المكتبية الإلكترونية» وأجهزة الكمبيوتر المركزية الضخمة التي تلتهاء 
تصلح إلا لمهام معالجة الأرقام التي تعد lé ja‏ من مهام المحاسبة والمراجعة. وأصبح الموظفون» 
الذي كانوا يقضون أوقاتهم سابقا في حساب أعمدة من الأرقامء يقضون أوقاتهم في إعداد البطاقات 
المُثقبة» وهي Lage‏ لا تقل عن سابقتها مَللّاه بل وتحتاج إلى تحري المستوى نفسه من الدقة الفائقة. 
منذ أن أصبح استخدام أجهزة الكمبيوتر مجديًا بالنسبة إلى المؤسسات التجاريةء ظهر الاهتمام بكيفية 


ra 


استخدامها في رفع الكفاءة» وتقليل التكاليف» وتحقيق الأرباح. وأدى تصميم الترانزستور واستخدامه 


في أجهزة الكمبيوتر المتاحة تجاريًا إلى صُنع أجهزة أصغر حجمًا من ذي قبل» وفي أوائل 
السبعينيات من القرن العشرين» ظهرت call‏ أجهزة الكمبيوتر الشخصية. ولكن» « لم تطرّح هذه 
الفكرة تجاريًا حتى عام VIAN‏ عندما طرحت شركة إنترناشونال بيزنس ماشينز (el ie dl)‏ 
كمبيوتر آي بي إم الشخصي في Gl sal‏ مع استخدام الأقراص المرنة في تخزين البيانات . وكانت 
إمكانات معالجة النصوص وجدول البيانات التي امتلكتها الأجيال اللاحقة من أجهزة الكمبيوتر 
الشخصية مسكولة إلى جد jS‏ عن Ciis‏ الكثيز :مق أعياء الأعمال المكتنية الروكنية. 


وعلى ضوء التقنية التي أتاحت الإمكانية لتخزين البيانات إلكترونيًا على أقراص Ai yo‏ سرعان ما 
ظهرت فكرة أن المؤسسات قد تدار بفاعلية في المستقبل دون استخدام الورق. في ۱۹۷۰ تنباً Qa‏ 
شير في مجلة بيزنس ويك الأمريكية بأن أماكن العمل الخالية تقريبًا من الورق يمكن أن تصبح واقعًا 
بحلول عام .343 c oS) s.‏ المقال أنه من خلال الاستغناء عن استخدام الورق أو تقليله إلى A&‏ 
كبيرء قد يُصبح مكان العمل أكثر فاعلية وقد تقل التكاليف. تراجّع مُعدل استخدام الورق في أماكن 
العمل لفترة من الوقت خلال ثمانينيات القرن العشرين عندما نقلت كثيرٌ من الأعمال الورقية التي 
كان من المعتاد رؤيتها في خزائن الملفات إلى أجهزة الكمبيوترء ثم Jiu‏ هذا الاستخدام أعلى 
معدلاته على الإطلاق عام CY « «V‏ وكانت النسخ المصوّرة هي المسئولة عن السواد الأعظم من هذه 
الزيادة. منذ عام (Y « «V‏ ظل استخدام الورق يتراجع تدريجيّاء ويرجع الفضل الأكبر في ذلك إلى 
زيادة استخدام الهواتف الذكية وتسهيلاتِ على غرار التوقيع الإلكتروني. 


على الرغم من أن التطلّعات المتفائلة التي ظهرت منذ بداية العصر الرقمي إلى جعل أماكن العمل 
ote‏ الووق لم Ge‏ وا Cle‏ ثور Mp qi‏ العمل بوعل البريد الإلقتروني» His‏ 
Jaa‏ التجارة الإلكترونية et “ps‏ 


لعل التسوق عبر الإنترنت هو المثال الأشهر . فنحن» باعتبارنا عملاء» نستمتع برفاهية التسوق من 
المنزل cis y‏ الطوابير التي ت xa‏ 0$ و قدا Sigh‏ السلبيات التي يتعرّض لها العملاء قليلة» «OS s‏ 
oly‏ على نوع المعاملة» قد تؤدّي عدم القدرة على التواصل وجهًا لوجه مع موظفي المتاجر إلى 
تجنب استخدام الشراء عبر الإنترنت. ee a‏ أصبح من الممكن التغلب على هذه 
المشكلات من خلال تسهيلات تقديم المشورة للعملاء عبر الإنترنت مثل «الدردشة الفورية»» 
والتقييمات عبر الإنترنت» والتصنيف بالنجوم» بالإضافة إلى مجموعة اختياراتِ ضخمة من السلع 
والخدمات فضلا عن سياسات الإرجاع السخية. بالإضافة إلى شراء السلع ودفع مقابلهاء أصبح 
بالإمكان AEN‏ دفع الفواتير» وإجراء المعاملات المصرفية» وشراء تذاكر الطيران» والوصول إلى 
مجموعة من الخدمات الأخرى جميعها عبر الإنترنت. 


يعمل موقع إيباي بأسلوب مختلف نوعًا ماء ويستحق أن X‏ نظرًا لكمية البيانات الهائلة الذي 
ينتجها. بالنظر إلى المعاملات التي Go‏ عبر عمليات البيع وعطاءات المزادات» ينتج إيباي 
حوالي ٠‏ «تيرابايت من البيانات ga cha‏ هذه البيانات من كل عملية بحث» وبيع؛ ومزاد 283 
على الموقع بواسطة م مُستخدميه النشطاء الذين يزعم أن عددهم ٠‏ مليون مُستخدم من ١1١‏ دولة. 


باستخدام هذه البيانات وأساليب التحليل المناسبة» تمكن الموقع Ul‏ من تنفيذ أنظمة توصية مثيلة 
لأنظمة نتفليكس» والتي سنتحدّث عنها لاحقا في هذا الفصل. 


تُوفْر مواقع شبكات التواصل الاجتماعي للشركات ملاحظاتٍ فوريةً عن كل شيءٍ من الفنادق 
والعطلات إلى الملابس» وأجهزة الكمبيوتر» والزبادي. باستخدام هذه المعلومات» يمكن للشركات 
معرفة العناصر التي تحقق las‏ وحجم هذا النجاح» والجوانب المثيرة ة للشكاوى» مع Q&‏ 
المشكلات قبل أن تخرج عن نطاق السيطرة ة. بل إن القيمة الأكبر لهذه المعلومات هي منح القدرة 
على التنبؤ بما يرغب العملاء في شرائه ely‏ على عمليات الشراء السابقة أو نشاط العملاء علي 
الموقع mn See c 5 SLY!‏ الاجتماعي» مثل فيسبوك وتويتر» cus‏ هائلة 
عن Adel yi cial‏ التي يمكن أن ت CAS ai‏ ا استخدام | أساليب اد 


إعلانات الدفع مقابل النقر 


أصبح الخبراء cc VIE‏ على نحو متزايد» o‏ الاستخدام الصحيح للبيانات الضخمة من شأنه أن 
يوفر بياناتٍ مفيدة ويجتذب عملاء جُددًَا عبر الترويج gali‏ للسلع واستخدام دعاية موجّهة على 

نحو أفضل. في كل مرة نستخدم الويب» نشاهد إعلانات عبر الإنترنت لا محالة» بل وقد ننشر 
بأنفسنا إعلاناتِ مجانية على العديد من مواقع المزادات على غرار إيباي. 


إن أحد أشهر أنواع الإعلان هو ذلك الذي يتبع نموذج الدفع مقابل النقرء وهو نظام تظهر خلاله 
Gide]‏ ذات صلة عند إجراء عملية بحث عبر الإنترنت. إذا أرادت شركة أن تُعرّض إعلاناتها 
عند الاستعلام عن مصطلح بحث معين» فإنها تضع عطاءً مع مزوّد الخدمة على كلمة رئيسية تتعلق 

البحث هذا. كما أنها تعلن ميزانية يومية قصوى ais.‏ الإعلانات بالترتيب وفقًا لنظام 


ك بحر نا الى ا القن فم الط اغلىي على هذا الط 


إذا نقرت فوق إعلانٍ لأحد المُعلنين» « فسيكون عليه أن يدفع إلى مزوّد الخدمة قيمة العطاء الذي 
حدده . ولا تدفع الشركات المال إلا إذا ji‏ طرف مهتم فوق إعلاناتها؛ ومن ثم يجب أن تكون هذه 
الإعلانات ملائمة تمامًا لمصطلح Gall‏ حتى تزداد أرجحية أن ينقر متصفحو الويب ei i‏ 
وتضمن خوارزمياتٌ دقيقة أن يُحقق aS ja‏ الخدمة» مثل جوجل أو ياهو» أقصى able‏ ممكن. aay‏ 
dasa‏ 350533 (المعروف OY!‏ بإعلانات جوجل أو جوجل آدز) أفضل تطبيق معروف لإعلانات 
الدفع مقابل النقر. عندما نجري as‏ على محرك بحث جوجل» ينشئ آدووردز الإعلانات (Ul‏ 
تظهر تلقائيًا على جانب الشاشة بواسطة آدووردز. الجانب السلبي في هذا النموذج هو أن النقرات قد 
تكون باهظة» كما أن هناك حدًا لعدد الأحرف المسموح باستخدامها حتى لا يشغل الإعلان حيرًا 
أكثر من اللازم. 


يمثل النقر الاحتيالي مشكلة أيضًا. على سبيل المثال» قد تنقر شركة منافسة فوق إعلانك بصورة 
مُتكرّرة حتى تستنفد ميزانيتك اليومية. أو يمكن استخدام برنامج ضارء يُسمى كليكبوت؛ لإنتاج 
نقراتٍ زائفة. والمُعلن وحده هو Ge‏ يقع ضحية لهذا النوع من الاحتيال؛ OF‏ مزوّد الخدمة يحصل 
على أمواله دون مشاركة أي عميل. ولكن» بما أن ضمان الأمن؛ ومن ثم حماية المشروع التجاري 
المربح» يصب في مصلحة مزوّدي الخدمة» تبذل جهودٌ بحثية كبيرة من أجل مكافحة الاحتيال. ريما 
كانت أبسط الطرق هي متابعة عدد النقرات المطلوبة في المتوسط لإتمام عمليات الشراء. وإذا 
حدثت زيادة مفاجئة في عدد النقرات أو تنفيذ عددٍ كبير من النقرات دون إجراء عمليات شراءٍ فعليةء 


فمن المرجُح أن يكون هذا نقرًا احتياليًا. 


على النقيض من ترتيبات الدفع مقابل النقرء من الجليّ أن الإعلانات المُوجّهة تعتمد على سجل 
نشاط كل شخص على الإنترنت. ولكي نعرف كيفية عمل هذا النوع من الإعلانات» سنبدأ بتناول 
ملفات تعريف الارتباط» التي لم أسهب في الحديث عنها في الفصل الأول» بمزيدٍ من التفصيل. 


lá Ys ci; yet cla 


ظهر هذا المصطلح للمرة الأولى عام ۹ عندما تضمّن نظام التشغيل يونيكس برنامجًا يسمّى 
«فورتشن كوكي»» والذي كان Dao:‏ عروض أسعار عشوائية إلى المستخدمين مستخرجة من 
قاعدة بيانات ضخمة . لملفات تعريف الارتباط العديدُ من الأشكال» وتنشأ جميعها خارجِيًا وتستخدم 
في متابعة نشاط ما على sal‏ المواقع الإلكترونية أو أجهزة الكمبيوتر. عندما تزور موقعًا إلكترونيًاء 
يرسل خادم ويب رسالة إلى متصفحك» وهذه الرسالة عبارة عن ملف صغير يُخزن على جهاز 
الكمبيوتر لديك. تعد هذه الرسالة أحد الأمثلة على ملفات تعريف الارتباطء إلا أن AS‏ الكثير من 
الأنواع الأخرى» مثل تلك التي تستخدم لأغراض مصادقة المستخدم» وتلك المستخدمة في تيقب 
الجهات الخارجية. 


Ag gall cati yl 


تُجِمّع بيانات كل نقرة تنقرها على الإنترنت وتُستخدّم في الإعلانات الموجهة 


da‏ هذه البيانات إلى شبكات إعلانية لجهات iss «s M‏ على جهاز الكمبيوتر cal‏ في 
صورة ملف تعريف ارتباط. وعندما تنقر على مواقع أخرى تدعها هذه الشبكات» ستعرّض إعلانات 
عن منتجات La kinte‏ :على BLS‏ باستخدام لايتبيم» أحد البرامج الإضافية المجانية لمتصفح 
موزيلا فايرفوكسء يمكنك أن تتبع مسار الشركات التي تجمع بيانات نشاطك على الإنترنت. 


أنظمة التوصية 


توفر أنظمة التوصية أو الاقتراح آلية تصفية a, i‏ المستخدمين بمعلوماتِ بناءً على اهتماماتهم. 
تعرض El gl‏ أخرى من أنظمة chive gill‏ لا تعتمد على اهتمامات المستخدمين» ما يتصفحه العملاءُ 
الآخرون في الوقت الحقيقي» وعادة ما تظهر هذه التوصيات على أنها «الأكثر تداولا». ومن أمثلة 


i‏ طريقة لتحديد المنتجات التي يُوصَّى بها للعملاء وهي «التصفية التعاونية» . بوجه (ale‏ تستخدم 
الخوارزمية البيانات التي تجمَع عن كل عميل على حدة من عمليات الشراء والبحث السابقة الذي 
أجراهاء وتقارن هذه البيانات بقاعدة Cubs‏ ضخمة تتضمن العناصر التي نالت استحسان العملاء 
الآخرين وتلك التي لم تتل استحسانهم؛ وذلك من أجل تقديم توصياتٍ مناسبة بشأن عمليات الشراء 
الجديدة. ولكن» لا تؤدي المقارنة البسيطة بوجه عام إلى نتائج جيدة. دعونا نتناول المثال ال 


لنفترض أن مكتبة عبر الإنترنت تبيع GUS‏ طبخ إلى أحد العملاء. قد يكون من السهل بالتالي أن 
توصي العميل بجميع كتب الطبخ» ولكن من غير eS A‏ أن ينجح هذا في ضمان عمليات شراءٍ 
جديدة . فثمّة الكثير جدا من كتب الطبخ» والعميل على دراية بالفعل أنه يهوي GIS‏ الطبخ. ما نحتاج 
إليه في هذه الحالة هو طريقة لتقليل عدد الكتب المُوصّى بها ليكون مقصورًا فقط على الكتب التي 

من المُحتمّل أن يشتريها العميل. دعونا لقي نظرة على ثلاثة عملاء هم سميثء» وجونزء وبراون» 
إلى جانب مشترياتهم من الكتب (جدول .)١-1‏ 


جدول :١1-65‏ الكتب التي اشتراها كل من سميث؛» وجونز» وبراون 


فن إعداد السلطة | الباستا اليوم | مستقبل الحلويات | عصائر ومشروبات 


سميث as‏ الشراء as‏ الشراء 


وأيها إلى جونز؟ نريد أن نعرف ما إذا كان سميث من ei Al‏ أن يشتري GUS‏ «الباستا اليوم» al‏ 
كتاب «عصائر ومشروبات». 
ولكي نفعل هذاء علينا أن نستخدم ظرزيقة إحصائية لطالما استخدمناها في مقارنة المجموعات 


ERNEUT‏ كانه ISS‏ وَيُعرّف بأنه axe‏ العناصر المشتركة بين مجموعتين Ú guide‏ على 
إجمالي عدد العناصر المختلفة في المجموعتين . ويقيس معامل التشابه التماثل بين المجموعتين على 
أنه نسبة العناصر المشتركة بينهما. jai‏ ف مسافة جاكار يأنها واحد yal‏ معافل انه حاكان: 
وتقيس عدم PUI‏ بين المجموعتين. 


بالنظر مرة Goal‏ إلى جدول lt‏ نرى أن سميث وجونز اشتريا GUS‏ نفسه» «فن إعداد 
السلطة». وبالمقارنة بينهما نرى أنهما اشتريا ثلاثة كتب مختلفة؛ «فن إعداد السلطة»» و«مستقبل 
الحلويات»» و«عصائر «OL ia s‏ وهذا يعطيهما معامل تشابه جاكار يساوي / Y‏ ومسافة 
جاكار تساوي Y/Y‏ يوضح جدول y-a‏ العمليات الحسابية الخاصة جميع الأزواج المحتملة من 


العملاء. 
١ ENS‏ معامل ا ا 
عدد الكتب إجمالي عدد الكتب معامل تشابه مسافة 
المشتركة المختلفة المشتراة جاكار جاكار 
3 
Y \ i‏ ۲/۱ ۳/۲ 
وجونز 
E‏ 
JY é/) 5 ١ bos‏ 
وبراون 
Jv EJ 3 ١ ao‏ 
وبراون 


يسجّل سميث وجونز معامل تشابه جاكار أعلى» أو درجة تماثل أعلى» من سميث وبراون. وهذا 
يعني ol‏ العادات الشرائية coal‏ سميث وجونز متقاربة» ومن cai‏ نوصي بكتاب «عصائر 
ومشروبات» إلى سميث. ما الذي يجدر بنا التوصية به إلى جونز؟ نكل ست alee. unc‏ 
تشابه جاكار أعلى من جونز وبراون» وعليه؛ فإننا نوصي بكتاب «مستقبل الحلويات» إلى جونز. 


والآن» لنفترض أن العملاء يُقيُمون عمليات الشراء باستخدام نظام تقييم بخمس نجوم. للاستفادة بهذه 
المعلومات وتوظيفهاء E‏ على عملا phe Cel‏ التقييم نفسه لكتب بعينهاء والاطلاع 
على مشترياتهم الأخرى مع أخذ تاريخهم الشرائي في Mie WE‏ التقييم بالنجوم لكل عملية el jå‏ 
مُوضځ في جدول DI‏ 


جدول Y-T‏ التقييم بالنجوم لكل المشتريات 
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في هذا المثال» توصّف طريقة Glue‏ مختلفة» تسمّى «مقياس تشابه Gud‏ التمام»» ويُراعى فيها 
نظام التقييم باستخدام النجوم. في طريقة الحساب code‏ تمثل المعلومات المُعطاة في جدول التقييم 
بالنجوم في صورة متجهات. ويُحدّد Sale‏ طول المتجه أو مقداره بالواحد الصحيح» ولا gin‏ طول 
المتجه أو مقداره دورًا آخر في الحسابات. يُستخدم اتجاه المتجه باعتباره وسيلة لتحديد مدى تمائل 
متجهين؛ ومن cai‏ الجانب صاحب أفضل تقييم بالنجوم. sli‏ على نظرية فضاء المتجهات» يتم إيجاد 
قيمة لتشابه Cus‏ التمام بين المتجهين. وتختلف طريقة الحساب هذه نوعًا ما عن طريقة حساب 
المثلثات المألوفةء إلا أن الخصائص الأساسية تظل قائمة Oe‏ يأخذ جيب التمام يما cx‏ ما بين 
s‏ و ا غ ا او کال و ا يون Su iesu stesse‏ 
نجوم أحد الأشخاص» يساوي واحدّاء فسيكون قياس ال ا OY‏ جيب التمام 
لصفر يساوي واحدًا؛ ومن ثم لا بد أنهما منطبقان ويمكننا أن ذ نستنتج أن الشخصّين متماثلان في 
الذوق. وكلما زادت قيمة تشابه جيب التمام» زاد aaa‏ هذا e‏ $7 


A cof IY‏ اه رة التفاعميل: الرياضية: فمك مطالعة Bigeye eal yell‏ فى هده 
«قراءات إضافية» في نهاية الكتاب. المثيرُ للاهتمام من وجهة نظرنا أن تشابه Cus‏ التمام بين 
سميث وجونز يبلغ ٠, Yo.‏ وبين سميث وبراون يبلغ 5 ١.‏ وهذا الناتج على النقيض من الناتج 
السابق؛ ما يعني أن سميث وبراون متقاربان في ذوقيهما AÍ‏ من سميث وجونز. بعبارة أخرى؛ 
يمكن تفسير ذلك بأن رأي كل من سميث وبراون في كتاب «مستقبل الحلويات» متقاربان أكثر من 
رأي سميث وجونز في كتاب «فن إعداد السلطة». 


تستخدم خوارزميات التصفية التعاونية من قبل كل من شركتي نتفليكس وأمازون» اللتين سنتحدّث 
عنهما في الجزء التالي مباشرة. 


امازون 


في Gal ۰۱۹۹٤‏ جيف بيزوس شركة cl pals‏ وسرعان ما غيّر اسمها إلى أمازون» وفي ١1315‏ 
أطلق موقع Amazon.com‏ كانت الشركة في الأساس عبارة عن مكتبة عبر الإنترنت» 
وأصبحت Úlla‏ شركة تجارة إلكترونية دولية يبلغ عدد عملائها E‏ ملايين عميل من جميع أنحاء 
العالم. تعمل الشركة في مجال إنتاج وبيع مجموعة متنوّعة من السلعء بداية بالأجهزة الإلكترونية 
وانتهاءً بالكتب» وحتى الأغذية الطازجة Dia‏ الزبادي» والحليب» والبيض عبر متجر «أمازون 
فريش». كما أنها شركة رائدة في (Qua‏ البيانات الضخمة؛ Cus‏ تقدم خدمات أمازون ويب 
للشركات Sols‏ بيانات Andee‏ 5 تستند إلى الحوسبة السحابية» باستخدام أدوات متطوّرة تعتمد على 
نظام هادوب. 


جمعت أمازون بياناتِ عن الكتب cal AAA‏ والكتب التي عاينها العملاء ولكنهم لم يشتروهاء والفترة 
التي ls pated‏ في البحث عن GUS‏ معيّنء وما إذا اشتروا الكتب التي حفظوها في قائمة التفضيلات el‏ 
N‏ . وباستخدام هذه البيانات» تمكنت أمازون من تحديد المبالغ الى أنفقها العملاء على الكتب شهريًا 


أو ga‏ وتحديد ما إذا كانوا عملاء معتادين أم لا. في بداية نشأة الشركة؛ كانت البيانات التي 
جمعتها أمازون تُحلل ياستخدام الأساليب الإحصائية التقليدية. فكانت X‏ عينات عن الأشخاص» 
وبناءً على أوجه التمائل التي يتم إيجادهاء قد تعرضٍ أمازون المزيد من العناصر المشابهة على 
العملاء . ولتحسين هذا الأسلوب على نحو أفضل» تقدم باحثون من شركة c0 sed‏ عام ۰۱ 
MEL uc Tu‏ 


xor Wm ا‎ dio dad eer PS 
تصفحه الشخصٌ أو اشتراه منهم. وتستخدم أمازون بياناتها في تشجيع العملاء على 33( المزيد من‎ 
المال على سلعهاء وذلك من خلال محاولة إجراء أكبر قدر ممكن من أبحاث السوق عن العملاء. فى‎ 
حالة الكتب» على سبيل المثال» لا تحتاج أمازون إلى توفير مجموعة ضخمة من الكتب فحسب» بل‎ 
(edo? تحتاج أيضًا إلى تركيز توصياتها على كل عميل على حدة. فإذا اشتركت في خدمة أمازون‎ 
الشركة أيضًا الأفلام التي تشاهدها وعاداتك في القراءة. يستخدم الكثير من العملاء الهواتف‎ care 
الأمر الذي يُمَكن‎ (Gl التي تحتوي على خاصية نظام تحديد المواقع العالمي (جي بي‎ pem 
الوقت والموقع. ويُستخدم هذا الكم الهائل من البيانات في‎ coca ji أمازون من جمع البيانات التي‎ 
إنشاء ملفات تعريف للعملاء تتيح مطابقة الأفراد المتشابهين بتوصياتهم.‎ 


منذ eT VP‏ بدأت أمازون في بيع بيانات تعريف العملاء إلى المُعلنين من أجل الترويج لخدمات 
ويب الخاصة بهاء ما نتج dic‏ نمو كبير للشركة. وفيما يتعلق بخدمات أمازون ويب» منصة الشركة 
go dex x ed ice a‏ شديد ls‏ ومتعدد As jl‏ وما كلمات t‏ وازواج 
حسابات العملاء E‏ الذين ER‏ بيانات المصنائقة الصحيحة. 


تحظى بيانات d ial Os jul‏ نفسه من الحماية المتعدّدة sil‏ باستخدام خوارزمية «إيه إي 
«i o» Wr «aliad‏ (بروتوكول ih‏ المنافذ الآمنة)» acil‏ الصناعي» في Ail AL NES‏ 


بين جهازين» مثل إنشاء رابط بين الكمبيوتر المنزلي وموقع AMAZON.COM‏ 


أمازون هي الشركة الرائدة في مجال «الشحن الاستباقي» ely‏ على أساليب تحليل البيانات 
الضخمة. تدور الفكرة حول استخدام البيانات الضخمة في تو قع السلع التي قد يطلبها العملاء . وتدور 
3 الأصلية حول تبحس المنتجات إلى ركو لزز فل مر العلل hed‏ وكإضافة «Alia‏ 
يمكن شحن المنتج إلى العميل مع تقديم مفاجئة مجانية له في حال استحسانه للمنتج. وعلى ضوء 
سياسة أمازون للاسترجاع؛ Y‏ تعد :هذه à‏ ةاسيكة: كان من المتوقع أن أغلب العملاء سيحتفظون 
بالمنتج الذي طلبوه بما أنه كان يعتمد على تفضيلاتهم الشخصيةء التي توصّلت إليها الشركة 
باستخدام أساليب تحليل البيانات الضخمة. توضّح أيضًا براءة اختراع الشحن الاستباقي» التي 
حصلت Gale‏ أمازون عام ٠۲٠٠٤‏ أيضًا أن رضا العملاء يمكن شراؤه بإرسال هدية ترويجية. d‏ 
رضا العملاءء وزيادة المبيعات عبر التسويق AS all‏ وتقليل زمن التوصيل» جميعها أمورٌ تجعل 
أمازون تؤمن بأنها شركة جديرة بالاهتمام. تقدّمت أمازون أيضًا بطلب للحصول على براءة اختراع 


E Jie of إير.‎ E R 
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دقيقة من طلبهاء وربما‎ ٠ كانت هذه الخطوة الأولى في مسعى أمازون إلى توصيل الشحنات خلال‎ 
هذا إلى توصيل الحليب بالطائرات بدون طيّار بعدما تكشف أجهزة الاستشعار في ثلاجتك‎ dl 

الذكية GI‏ ما بها من حليب أوشك أن ينتهي. 


أمازون جوء متجر مواد غذائية موجود في سِيّاتل» وهو الأول من نوعه الذي لا يتطلب منك الدفع 
لدى أمين خزينة قبل الخروج من المتجر. حتى ديسمبر 5 كان المتجر متاحًا فقط لموظفي 
أمازون» cS‏ الخطط لأن يصبح متاحًا لجمهور المستهلكين Ale‏ في يناير ۰1%۷ . تقتصر 
التفاصيل الفنية الوحيدة المتاحة لنا lls‏ على ما ورد في براءة الاختراع التي «Quale Xa Cass‏ 
والتي تصف نظامًا يُلغي الحاجة إلى التحقق من شراء كل عنصر على حدة. a3‏ من ذلك تضاف 
تفاصيل عربة تسوق العميل الحقيقية تلقاتيًا إلى عربة تسرقه الافتراضية أثناء التسوق . ويتم الدفع 
إلكترونيًا أثناء مغادرة العميل المتجر عبر منطقة انتقالية ما دام يمتلك cas‏ أمازون وهاتفا LSS‏ 


يحتوي على تطبيق أمازونٍ جو . يعتمد نظام جو على مجموعة من أجهزة الاستشعارء عدد كبير Naa‏ 
مذهاء REC‏ لتحديد E‏ سل مق cà gi yl dab‏ أو sei‏ إليه. 


من شأن هذا النظام أن ينتج كمية هائلة من البيانات ذات الفائدة التجارية لصالح شركة أمازون. وبما 
أن US‏ فعل تسوٌق يحدث ما بين دخول العميل المتجر ومغادرته CURA‏ فلا شك في أن أمازون 
ستتمكن من استخدام هذه البيانات في تقديم النتوصيات لعملائها خلال زيارتهم التالية بطريقة تماثل 
نظام توصياتها عبر الإنترنت. ولكن قة 91s‏ مشكلاية (Slat‏ يمف تددر دا خضو هيا لا سيّما 
بسبب أمور على غرار الاحتمالية المذكورة في طلب الحصول على براءة الاختراع» والتي تتعلق 
باستخدام أنظمة التعرّف على الوجوه في تحديد العملاء. 
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ثمّة شركة أخرى من شركات وادي السيليكون وهي شركة نتفليكس التي أسّسّت عام ASSES ١151‏ 
لتأجير أقراص الدي في دي عبر البريد. كان بإمكانك أن تأخذ قرص دي في دي وتضيف قرصًا 
آخر إلى قائمة طلباتك؛ ومن ثمّ» ترسل إليك الأقراص تباعًا. والأهم من ذلك أنه في مقدورك تحديد 
الأولويات ضمن قائمتك. لا تزال هذه الخدمة متوافرة ومربحة» ولكن يبدو أنها توشك على الانتهاء 
تدريجيًا. أصبحت نتفليكس 5a Úlla‏ 155 دوليًا للخدمات الإعلامية Call y‏ عبر الإنترنت» ووصل 33e‏ 
مشتركيها إلى ما يقارب Vo‏ مليون مشترك من ALGO ١1١‏ وتمكنت من التوسّع بنجاح لتشرع في 


تجمع نتفليكس كمياتٍ Alla‏ من البيانات وتستخدمها في تحسين الخدمات المُقدّمة إلى العملاء» مثل 
عرض التوصيات لأفراد المستخدمين مع السعي في الوقت نفسه إلى تقديم خدمة بث لأفلامها يمكن 


التعويل عليها. تقع التوصيات في صميم نموذج عمل شركة نتفليكس» حيث يقوم الجزء الأكبر من 
عملها على Glue gill‏ التي يمكنها عرضها علي العملاء g‏ المستندة إلى البيانات. wt‏ نتفليكس ls‏ 
ما يشاهده كل عميل من diae‏ وما daia‏ وما يبحث (Aie‏ ويوم وتوقيت أدائه لكل هذه 
الأنشطة. كما أنها تسجّل ما إذا كان العميل يستخدم جهاز آي باد» أو تلفزيوتا أو جهازًا آخر. 


في ٠٠٠٠٠٦‏ أعلنت نتفليكس عن مسابقة عامة للجمهور تهدف إلى تحسين أنظمة التوصية لديها. 
وعرضت الشركة jila‏ $ قيمتها مليون دولار لخوارزمية التصفية التعاونية التي ستّحسّن بنسبة ٠١‏ 
بالمائة من دقة التنبؤات بتقييمات المستخدمين, للأفلام. وأتاحت نتفليكس بيانات التدريب» ما يزيد 
على ٠٠١‏ مليون عنصرء من أجل مسابقة تعلم الآلة والتنقيب في البيانات code‏ ولم يكن مسموحًا 
استخدام أي مصادر أخرى. عرضت نتفليكس جائزةً مبدئية (جائزة التقدم) بقيمة c ja Cali e.‏ 
والتي SE‏ بها فريق شركة كوربل في ۲٠٠۷‏ عندما تمكنوا من AMA JS‏ ذات صلة ولكنها أسهل 
نوهًا ما. كلمة «أسهل» كلمة نسبية في هذا a NES‏ 
لبحصلوا على خوارزميتين نهائيتين لا زالت نتفليكس تستخدمهما حتى الآن+ ولا تزالان قيد التطوير 
المستمر. صيعّت هاتان الخوارزميتان لتتمكنا من التعامل مع ٠‏ مليون تقييم في مقابل الخمسة 
مليارات تقييم التي يجب أن تتمكن الخوارزمية التي ستحصل على الجائزة الكاملة من التعامُل معها. 
d e cam a) We ee dor eee‏ 
بلكورء والذي حققت خوارزميته نسبة تحسّن بلغت ٠6 ١5‏ في المائة عن الخوارزمية التي كانت 
مستخدّمة في ذلك الحين. لم تنفذ شركة نتفليكس الخوارزمية الفائزة بالكامل على الإطلاق» ويرجع 
ذلك في الأساس إلى أنهاء بحلول ذلك الوقت» كانت قد غيّرت نموذج عملها إلى نموذج عمل Cal)‏ 
الإعلامي الحالي المألوف. 


بمجرد أن وسّعت نتفليكس نموذج عملها من الخدمات البريدية إلى إتاحة الأفلام عبر البّث» تمكنت 1 
من جمع AS‏ أكبر بكثير من المعلومات عن تفضيلات عملائها وعادات المشاهدة. الأمر الذي مكنها 
من تقديم توصياتٍ محسّنة. ولكن» بعيدًا عن الطريقة الرقمية» توظف نتفليكس مُعلقين بدوام cide‏ 
بإجمالي حوالي ۰ Lai‏ في جميع أنحاء العالم» »> يشاهدون الأفلام ويعلقون على المحتوى 
«Jal des m oe‏ على أنه «خيال علمي» «Ux S» E‏ ومن ثم j‏ تصنف د 


تمتخدم odi‏ مجموعةٌ كبيرة من خوارزميات التوصية» وتي ed‏ مقا نظام التوصية: تعمل 
كل هذه الخوارزميات وفقا للبيانات الضخمة المُجمّعة التي ت تجمعها الشركة. على سبيل المثال» تحدّد 
التصفية المستندة إلى المحتوى البيانات التي يقدّمها «المعلقون»» وتبحث عن أفلام وبرامج تلفزيونية 
مشابهة طبقًا لمعايير على غرار المحتوى أو الل رو التصفية التعاونية هذه 
الأمور على أنها عاداتك فيما يخصٌ المشاهدة والبحث. و تستند التوصيات إلى ما شاهده المشاهدون 
أصحاب ملفات التعريف المشابهة. di‏ في إن فرص تجاح هذا الإسلوب تتراجع Ee‏ وريد 
عدد مستخدمي الحساب عن مستخدم واحد» عادة ما يكونون عدة أفراد من أسرة baal g‏ لكل منهم 
EN‏ وعادات مشاهدة مختلفة. ومن أجل التغلب على هذه المشكلة» أنشأت نتفليكس خيانَ ملفات 
التعريف المتعدّدة ضمن كل حساب من حسابات المستخدمين. 


axi‏ خدمة العروض التلفزيونية على الإنترنت حسب الطلب مجالا آخر يساعد في نمو شركة 
نتفليكس» وستتزايد أهمية استخدام أساليب تحليل البيانات الضخمة مع استمرارها في تطوير 
أنشطتها. بالإضافة إلى جمع بيانات البحث والتقييمات باستخدام النجوم» يمكن لشركة نتفليكس حاليًا 
أن تحتفظ بسجلاتِ عن axe‏ مرات إيقاف المستخدمين لمقاطع الفيديو أو تقديمهاء أو ما إذا كانوا 
يستكملون مشاهدة كل برنامج بدءوا في مشاهدته al‏ لا. كما أنها تتابع كيف» ومتى» وأين شاهدوا 
البرنامج» إلى جانب عدد كبير من المتغيّرات التي لن يسعنا ذكرها هنا لكثرتها. باستخدام أساليب 
تحليل البيانات الضخمة» نما إلى علمنا أنها أصبحت قادرة Als‏ على التنبؤ بدقة معقولة ما إذا كان 
أحد عملائها بصدد إلغاء اشتراكه. 


ale‏ البيانات 


alley‏ البيانات» هو اللقب العام الذي يُطلّق على العاملين في مجال البيانات الضخمة. ألقى تقرير 
شركة ماكنزي لعام ۲١٠١‏ الضوءَ على نقص axe‏ علماء البيانات في الولايات المتحدة الأمريكية 
وحدهاء 1535 أنه بحلول ٠١١‏ سيصل العجز إلى tai ٠‏ . يتكرّر هذا haill‏ على نحو واضح في 
جميع أنحاء العالم» وعلى الرغم من المبادرات الحكومية التي GEES‏ على التدريب على مهارات ale‏ 
البيانات» يبدو أن الفجوة بين الخبرات المتاحة والمطلوبة لا تزال تتسع. تتزايد شهرة ale‏ البيانات 
كأحد خيارات الدراسة الجامعيةء إلا أن الخريجين لم يتمكنوا حتى GY‏ من تلبية متطلبات التجارة 
والصناعة» حيث تقدّم الوظائف في مجال علم البيانات Cal.‏ عالية للمتقدمين الأكثر خبرة. تهتم 
البياناث الضخمة للمؤسسات التجارية بالربح» وسرعان ما ستتسلل خيبة الأمل إلى نفس محلل 
بياناتِ مُثقل بالأعباء ولا يملك الخبرة الكافية إذا فشل في تحقيق النتائج الإيجابية المتوقعة. تطلب 
الشركات» في أغلب الأحيان» alle e 3 ai‏ بياناتٍ يفي US‏ المتطلبات» حيث تريده ضليعًا في جميع 
ead‏ وتتوقع منه أن يتمتع بالكفاءة في كل شيء» Jeu‏ من التحليل الإحصائي وحتى تخزين 


يحظى Chal‏ البيانات بأهمية كبيرة بالنسبة إلى أي «AS uA‏ وللبيانات الضخمة مشكلاتها الأمنية 
الخاصة. في ٠٠١٠٠١‏ ألغيت مبادرة جائزة نتفليكس الثانية بسبب مخاوف تتعلق بأمن البيانات. شملت 
عمليات اختراق البيانات مؤخرًا شركة أدوبي في ٠۲۰٠۳‏ وإيباي وبنك جيه بي مورجان تشيس في 
645 وشركة أنثيم (شركة تأمين صحي يقع ia‏ في الولايات المتحدة) وشركة كارفون 
MA dd S‏ لحي عرد ee‏ ب ONCE‏ 
وقعت في ۲١٠۲‏ ولم تكتشف حتى Y. Y‏ وما الشركات السالفة الذكر إلا عينة صغيرة؛ فثمة 
الكثير من الشركات الأخرى التي تعرّضت للاختراق أو عانت من أنواع أخرى من الانتهاكات 
الأمنية التي cual‏ إلى نشر غير مصرّح به لبياناتِ حسّاسة. في الفصل السابع» سنتناول بتعمّق بعض 
الانتهاكات الأمنية للبيانات الضخمة. 


الفصل السابع 
أمن البيانات الضخمة وقضية سنودن 


في يوليو 4 وجد قراء تطبيق أمازون كيندل أن الحياة تحاكي الفن عندما اختفت نسح رواية 
جورج أورويل «38A»‏ تمامًا من أجهزتهم. في زواية VINE‏ يستخدم «ثقب الذاكرة» في حرق 
المستندات التي x‏ هدامة 2 أو لم تعد مطلوبة. ومن E‏ تختفي المستندات إلى الأبد dais,‏ كتابة 
التاريخ. كان من الممكن ألا يكون ذلك الأمر سوى åa ja‏ مؤسفة» ولكنء في الحقيقة أزيلت Vl gy‏ 
»3$ « و«مزرعة الحيوان» لجورج أورويل من التطبيق بسبب نزاع بين شركة أمازون 
والناشر. شعر العملا بالغضب لأنهم دفعوا مقابل هذه الكتب الإلكترونيةء وافترضوا أنها بذلك 
أصبحت ملكا لهم. ورفعٌ طالبٌ في المرحلة الثانوية وشخصل A‏ قضية cA‏ تسويتها خارج 
المحكمة . في هذه التسوية» صرّحت شركة أمازون Gib‏ لن تمحو مجذدًا GS‏ من تطبيقات كيندل 
المُثبتة على أجهزة العملاء إلا في ظروف معينةء بما في ذلك وجود «أمر قضائي أو رقابي يتطلب 
هذا الحذف أو التعديل». Cia yo‏ أمازون على عملائها استعادة المبالغ cic Ådal]‏ أو الحصول على 
قسائم هداياء أو استعادة الكتب المحذوفة. زد على ذلك أننا لا يمكننا بيع الكتب التي اشتريناها على 
تطبيق كيندل أو إقراضهاء ومن eS‏ يبدو أننا لا نملكها من الأساس. 
على الرغم من أن واقعة كيندل كانت بسبب مشكلة قانونية ولم تكن نابعة عن سوء نية» فإنها تكشف 
عن مدى سهولة حذف المستندات الإلكترونية» وكيف أنه دون وجود النسخ المطبوعة يمكن بسهولة 
محو أي نص يُرى على أنه غير مرغوب فيه أو alia‏ محوًا AS‏ إذا أمسكت بنسخة ورقية من هذا 
الكتاب وقرأتهاء فستدرك يقينًا أنها ستظل على حالها كما هي دون تغييرء ولكن إذا قرأت أي شيء 
على الويب ls‏ فلا يمكنك أن تتيقن مما أنها ستظل كما هي في الغد أم لا. لا يمكن أن تتيقن من 
شيءٍ على الويب. Lay‏ أن المستندات الإلكترونية يمكن تعديلها وتحديثها دون معرفة المؤلف 
cale y‏ فإنه يمكن التلاغب بها بسهولة. قد يكون هذا الوضع ضارا للغاية في العديد من المواقف 
المختلفة» مثل احتمالية تلاعب شخص بالسجلات الطبية الإلكترونية. حتى إن التوقيعات الرقميةء 
rir mi aded‏ م الا يا من شان ما سبق أن Les jon‏ 
المطلوب؛ وإمكانية إصلاحها في حال تعطلهاء وأنها مقاومة للتلاغب» ولا يمكن الوصول gal‏ إلا 
بواسطة مَّن يملكون التصريح الصحيح. 


يدور موضوع النقاش الرئيسي في هذا الفصل حول مسألة تأمين الشبكات والبيانات التي تحتوي 
عليها. وثمّة zl js]‏ أساسي da)‏ لحماية الشبكات من الوصول غير uaa‏ ح به وهو تثبيت «جدار 
حماية»» والذي يعزل الشبكات عن الوصول الخارجي غير المُصرّح به عبر الإنترنت. حتى وإن 
كانت الشبكات die ge‏ ضد الهجمات المباشرة» كالفيروسات وأحصنة طروادة على سبيل المثال» قد 


تظل البيانات المُخزنة فيها عرضة للخطرء « خاصة إذا لم تكن مُشفرة . على سبيل المثال» في as]‏ هذه 
الأساليب» وهو التصيّد VE «ul is WI‏ مكار دلت لإدخال تعليمات برمجية ضارة» ویکون هذا 


ciis cub SE. Ga d call LAE iila ¢ إلكترونية تتضمّن‎ Ala; عادة عن طريق إرسال‎ 


شخصية أو أمنية مثل كلمات المرور. ولكن» يظل الاختراق الإلكتروني هو المشكلة الرئيسية التي 
تواجه البيانات الضخمة. 


تعرّض متجر تارجت للبيع بالتجزئة للاختراق في 270١117‏ وأدى هذا إلى سرقة تفاصيل سجلات ما 
يُقدر بنحو ٠‏ مليون عميل» بما في ذلك تفاصيل بطاقات ائتمان ée‏ مليون شخص. أفادت 
التقارير أنه بحلول نهاية نوفمبر كان المتسللونٍ قد نجحوا في إقحام برامجهم الضارة في أغلب 
أجهزة نقاط البيع الخاصة بمتجر تارجت» وتمكنوا من جمع سجلات بطاقات العملاء عن طريق 
معاملاتٍ في الوقت الحقيقي. في ذلك الحين» كان نظام تارجت الأمني يُراقب على مدار الساعة من 
قبل فريق من المختصين يعمل في بنجالور i oe‏ التتبيه بوجودنشاط مشبوه:وتواصل الفريق مع 
فريق الأمن الرئيسي في مينيابوليسء الذي لم يتخذء للأسف» أي Gel yal‏ بمقتضى هذه المعلومات. 
كان اختراق poche‏ هوم £C gui‏ الذي سنتناوله في الفقرة التالية» أكبر بكثيرء ولكنه استخدم Cull‏ 
مشابهة أدت إلى سرقة كمية هائلة من البيانات. 


في A‏ سبتمبر eé‏ أعلن متجر هوم ديبوت» الذي يصف نفسه بأنه أكبر متجر بيع بالتجزئة 
لمستلزمات تحسين المنازل في calle)‏ في بيان صحفيء أن نظم بيانات الدفع قد تعرّضت للاختراق. 
وفي استكمال للبيان في VA‏ سبتمبر ٠۲١٠١‏ أعلنَ هوم ديبوت أن الهجوم قد أثر على حوالي 5ه 
مليون بطاقة خصم مباشر وائتمان. بعبارة أخرىء سُرقت تفاصيل 55 مليون بطاقة خصم مباشر 
وائتمان. sepia) Gis T eo‏ فو هد peers‏ 
ولكن» ا ا ا A asks OS Goaler‏ 
تصيّد احتيالي ناجحة. 


استلزمت الخطوة التالية أن يتمكن كن ci i al‏ فن S gue gl‏ إلى SASH pla‏ . وفي هذه المرة» كان 
هوم ديبوت يستخدم نظام تشغيل مايكروسوفت إكس بيء والذي كان يحتوي على خط جوهري 
استغله المخترقون. استهدف بعد ذلك نظام الدفع الذاتي؛ لأن هذا النظام الفرعي كان يمكن تحديده 
Gee m uaa‏ النظاد :ككل dl y‏ أصات: (Si ial‏ اجهزة الدفم الذاتي Atl)‏ عدذها Vous‏ 
جهاز ببرنامج ضار ليحصلوا على معلومات العملاء. استخدم المخترقون «BlackPOS‏ الذي 
يُعرف أيضًا aul:‏ «كايتوكسا»,» وهو برنامج ضار مختص في استخراج معلومات بطاقات الخصم 
الاو وا ن dove ee‏ فيه ا Gase uis scuole‏ 
بطاقة الدفع عند تمريرها على إحدى المحطات الطرفية لنقاط aa‏ ولكن» يبدو أن هذه الخاصية 
المعروفة باسم التشفير من نقطة إلى نقطة لم تكن مفعَلة؛ ومن Compal cai‏ التفاضيل Axis‏ أمام 
المخترقين ليستولوا عليها. 


اكتشفت هذه السرقة Lente‏ بدأت البنوك تكتشف أنشطة احتيالية لحساباتِ كانت قد أجرت عمليات 
شراء أخرى من متجر هوم ديبوت lu‏ فترة قصيرة» كانت قد بيعت تفاصيل البطاقات عبر 
ريسكاتورء منفذ جرائم إلكترونية موجود على الويب المظلم (دارك ويب). المثير في الآمر أن 
الأشخاص الذين استخدموا GY!‏ تسجيل النقد» ee‏ استخدام البطاقات» لم يتأثروا بهذا 
الهجوم. ويبدو أن السبب في ذلك أن آلات تسجيل النقد يتعرّف عليها الكمبيوتر المركزي عن طريق 
الأرقام فقطء ولا يمكن للمجرمين التعرّف عليها بسهولة بوصفها نقاط دفع. لو cj Gao‏ هوم ديبوت 
استخدم يسا الأرقام البسبيطة مع وحدات الدفع الذاتي الطرفية لديه فلربما نج في إحباط محاولة 
الاختراق هذه. وعلى ذكر هذاء فقد كان نظام كابتوسكا في ذلك الوقت واحدا من البرامج الضارة 
E E ae qued e gL ae uec apo ual‏ 


أكبر اختراق للبيانات على الإطلاق 


في ديسمبر ٠۲۰٠٠‏ أعلنت شركة ياهو أن اختراقإ للبيانات يتضمّن ما يزيد على المليار مستخدم 
ausos IT eee E E uM‏ 
إلى كلمات مرور. gh aly ce diy copa ce coal uo SANT in d‏ ا 
خلاله حسابات ٠٠٠‏ مليون مستخدم. المفاجئ في الأمر أن ياهو زعمت أن الاختراق الذي حدث في 
5 قد دبّرته «جهة ترعاها (Al gall‏ لم تفصح عن اسمها. 


rare ees A 


تزداد قائمة الاختراقات الأمنية للبيانات ore‏ كل یر تقرييًا. وأضحت سرقة البيانات» واحتجاز 
البيانات مقابل طلب فدية» وتخريب البيانات» مخاوف كبرى في عالمنا الحالي القائم في أساسه على 
البيانات. ALS‏ الكثير من المخاوف المتعلقة بأمن البيانات الشخصية الرقمية وملكيتها. قبل العصر 
الرقمي كنا نحتفظ بالصور في ألبومات» وكان نيجاتيف الصور هو نسختنا الاحتياطية. بعد ذلك» 
أصبحنا نخزّن صورنا إلكترونيًا على الأقراص الصلبة لأجهزة الكمبيوتر الخاصة. ولأن أجهزة 
الكمبيوتر كانت غرضة Jhai GY‏ « اقتضت الحكمة أن نحتفظ بنسخ احتياطية» «QS‏ على الأقل لم 
تكن الملفات متاحة للجميع. أصبح الكثير منا OAIN GY!‏ البيانات في السحابة الإلكترونية. ونظرًا 
LJ‏ تتطلبه الصورء ومقاطع الفيديو» والأفلام المنزلية من مساحة تخزين كبيرة فإن السحابة 
الإلكترونية بدت منطقية من هذا المنظور. عندما تخزّن ملفاتك في السحابة الإلكترونية» فإنك ترفعها 


إلى مركز بيانات — بل إنها توزع؛ على الأرجح» على عدة مراكز بيانات ومن ثم يُحتفظ بأكثر 
من نسخة واحدة منها. 


إذا cua‏ كل صورك في السحابة الإلكترونيةء فمن غير الوارد على الإطلاقء بفضل الأنظمة 
المتطوّرة المعاصرة» أن تفقدها. le‏ النقيض» إذا أردت أن تحذف شيئاء ربما صورة أو مقطع 
فيديو» فمن الصعب أن تتأكد من أن كل النسخ قد A‏ . وسيكون عليك أن تعتمد بصفة أساسية على 
a5 a‏ الخدمة في ذلك. Ai‏ موضوع مهم آخر وهو التحكم فيمّن يتاح لهم الوصول إلى هذه الصور 
وغيرها من البيانات التي رفعتها إلى السحابة الإلكترونية. إذا أردنا تأمين البيانات cA cA‏ فلا بد 


من التشفير. 


ar 


يشير «patil‏ كما ذكرنا باختصار في الفصل الخامسء إلى الأساليب المُستخدّمة في خلط الملفات 
حتى Y‏ يمعن قراءتها بسهولة»› ويعود الأسلوب الأساسي إلى العصر الروماني على أقل تقدیر . 
يصف جايوس سويتونيوس» في كتابه «القياصرة الاثنا cq de‏ كيف أن يوليوس قيصر شفر 
الوثائق عن طريق إزاحة الحروف بمقدار ADS‏ حروف إلى اليسار. باستخدام هذا الأسلوب» تشفر i‏ 
كلمة secret‏ إلى -pbzobq‏ تُعرّف هذه الشفرة باسم «شفرة القيصر»» وهي شفرة ليس من 
المع Y) elei‏ .أن أك Gold ues OL) a cake cui und‏ الأز احة كز م من 
الخوارزمية المستخدمة. 


في ۱۹۹۷ء أثبت أفضل أسلوب تشفير متاح للعامة» وهو معيار تشفير البيانات (دي إي إس)» Ol‏ 
من الممكن فك شفرتهء ويرجع هذا بدرجة كبيرة إلى زيادة القدرة الحاسوبية المتاحة وطول مفتاح 
التشفير القصير نسبيًا الذي يبلغ cuo‏ على الرغم من أن هذا الأسلوب يتيح ^Y‏ من اختيارات 
المفاتيح المختلفة الممكنة» ple pe ila Js às là c Kay dá c‏ اختبار كل مفتاح إلى حين العثور 
على المفتاح الصحيح. وهذا ما حدث بالفعل عام ٨۸‏ » في أقل من Yé‏ ساعة باستخدام جهاز ديب 
cell JS‏ وهو جهاز كمبيوتر صمّمته مؤسسة الحدود الإلكترونية خصوصًا لهذا الغرض. 


معيار تشفير البيانات يفتقر إلى Be‏ 0 ا الوثائق الفائقة TE ane‏ 
مستوى العالم للتوصل إلى أسلوب تشفير أفضل من معيار تشفير البيانات. انتهت المسابقة في 
١‏ باختيار خوارزمية معيار التشفير المتقدم. TIC‏ الخوارزمية تحت (game‏ خوارزمية 
ريندايل» الذي دمج بين اسمّي مُبتكريها البلجيكيّين جون دايمن وفينسنت ريمن. 


معيار التشفير المتقدّم عبارة عن خوارزمية برمجية لتشفير النصوص يمكن من خلالها الاختيار من 


بين مجموعة من مفاتيح التشفير الأكثر طولا: YA:‏ بت» أو VY‏ بت» أو ٣٩بت PETS‏ 
مفتاح التشفير البالغ cy YA‏ تحتاج الخوارزمية إلى تسع جولات معالجة تتكوّن كل منها من أربع 


خطوات» بالإضافة إلى جولة أخيرة مكونة من ثلاث خطوات فقط. يجري تنفيذ خوارزمية معيار 
التشفير المتقدّم على نحو تكراري» وتجري عددًا كبيرًا من العمليات الحاسوبية على مصفوفات» فقط 
نوع العمليات الحسابية الذي من الأفضل إجراؤه باستخدام أجهزة الكمبيوتر. ولكن» يمكننا أن نصف 
العملية على نحو غير متخصّص من دون التطرّق إلى ذلك التحويلات الرياضية. 


يبدأ معيار التشفير المتقدّم بتطبيق مفتاح تشفير على النص الذي نرغب في تشفيره. بعد ذلك لن 
نتمكن من تمييز النصء ولكن بما أننا نعرف مفتاح التشفير» > يمكننا أن نفك تشفير النص بسهولة؛ 
ومن ثمَّ يستلزم الأمر مزيدًا من الخطوات. تتضمّن الخطوة التالية استبدال كل حرف Gaya‏ آخر 
باستخدام جدول مرجعي خاص يُسمَّى مربع ريندايل للاستبدال. Wu URN MERI.‏ 
للاستبدال» فيمكننا العمل على نحو عكسي وفك تشفير الرسالة. تشكّل شفرة القيصرء التي تتم 

ا ee E I‏ 
في بدء جولة أخرىء باستخدام مفتاح مختلف وهكذاء حتى تكتمل جميع الجولات. وبالطبع يجب أن 
نكون قادرين على فك الشفرة» وفيما يخص هذه الخوارزمية يمكن أن تعكس هذه العملية. 


بالنسبة إلى مفتاح التشفير البالغ طوله ۹۲١بت»‏ ثمة ٠١‏ جولة إجمالا. ولمزيدٍ من الأمان» وهو ما 
يتحقق باستخدام مفتاح تشفير أطول» « يمكن استخدام مفتاح التشفير البالغ طوله 55 ١بتء‏ إلا أن أغلب 
المستخدمين» بما في ذلك جوجل وأمازون» يرون أن مفتاح التشفير الذي طوله YA‏ كاف لتلبية 
المتطلبات الأمنية لبياناتهم الضخمة. إن معيار التشفير المتقدم آمن» ولم يتمكن Bal‏ من اختراقه حتى 
الآن» ما جعل العديد من الحكومات تطلب من شركاتٍ كبرى — مثل أبل dass‏ — أن تتيح 
مداخل سريه ة إلى المادة المشفرة. 


أمن البريد الإلكتروني 


تشير التقديرات إلى أنه في Y Yo‏ كان aoi‏ ما يزيد على ٠٠١‏ مليار رسالة إلكترونية كل يوم» 
وكانت نسبة تقل عن ٠١‏ بالمائة منها فقط موثوقة وليست بريدًا عشوائيًا أو ذات نوايا خبيثة. وتكون 
أغلب الرسائل الإلكترونية غير مشفرة» ما يجعل محتواها غرضة GY‏ يترصّده المخترقون. عندما 
أرسل رسالة إلكترونية غير مشفرة» من كاليفورنيا إلى المملكة المتحدة ة على سبيل المثال» فإنها تقسّم 
إلى «حزم» من البيانات وثنقل عبر خادم بريد متصل بالإنترنت. يتكوّن الإنترنت في الأساس من 
شبكة عالمية ضخمة من الأسلاك الموجودة فوق الأرض» وتحت الأرض» وتحت المحيطات» 
بالإضافة إلى أبراج الهواتف المحمولة والأقمار الصناعية. والقارة الوحيدة غير الموصّلة بكابلات 
عار ا a‏ القطبية الجنوبية (أنتاركتيكا). 


ومن i‏ على الرغم من الاعتقاد الشائع بأن الإنترنت Asus y‏ المستندة إلى السحابة الإلكترونية لا 
سلكيان» فإنها ليست كذلك على الإطلاق؛ فالبيانات تنقل عبر كابلات ألياف ضوئية ممدودة تحت 
المحيطات. وتنقل جميع الاتصالات الرقمية بين القارات تقريبًا بهذه الطريقة. Ji fa‏ رسالتي 
الإلكترونية عبر كابلات ألياف ضوئية عابرة للمحيط الأطلنطي» حتى وإن كنت أستخدم خدمة 


mE تمتد جذور‎ cae are العالي‎ scd n rA i us 


ETT, 


توفر كابلات الألياف الضوئية أسرع وسيلة Jil‏ البيانات» وعليه» فهي تحظى بأفضلية على الأقمار 
م Med dice‏ را لحي بار gee‏ 
chad je‏ يه الى وا enis pach ais ofl cad‏ على الرغم من أن هجمات 
أسماك القرش على الكابلات» طبقًا للجنة الدولية لحماية الكابلات» مسئولة فقط عن أقل من )1 من 
الأعطال (Aaa‏ أصبحت الكابلات في المناطق الأكثر jai tus e‏ تخ الا باستخدام ألياف 
الكيفاس: d‏ ا مو even ic ier dd dei‏ 
بلقت odi‏ الي لفك المتحدة وتو اسل oils‏ ريما تعر طل :في .هذه Je cessa‏ 
غيرها من بيانات الإنترنت» للاعتراض. في يونيو ۰۲۰۱۲ Ue‏ إدوارد سنودن مستنداتِ تكشف 

عن أن مكاتب الاتصالات الحكومية في المملكة المتحدة تتنصّت على كمياتٍ هائلة من البيانات التي 
تصل البلاد عبر حوالي ٠‏ كابل عابر للمحيط الأطلنطي» « باستخدام نظام (pany‏ تمبورا. 


قضية سنودن 


إدوارد سنودن خبيرٌ GS yal‏ محترف في أجهزة الكمبيوتر» اهم بالتجسّس في ٠١١7‏ بعد أن سرّب 
معلوماتِ سرية من وكالة الأمن القومي الأمريكية. وضعت هذه القضية الذائعة الشهرة إمكانات 
المراقبة ALLAN‏ للحكومة تحت منظار عامة الشعب» Cel y‏ على نطاق واسع عن مخاوف تتعلق 
بخصوصية الأفراد . حصل سنودن على الكثير من الجوائز منذ أن أقدم على هذا الفعل» والتي شملت 
eeu —‏ لجامعة ae‏ وجائزة شخصية العام من جريدة «الجارديان» لعام EST‏ 
العفو ee‏ لز أحد كاشفي الفساد. ولكن» يعارض المسئولون 
الحكوميون والسياسيون الامريكيون هذا الرأي. 


في يونيو ٠۲۰٠۳١‏ أفادت جريدة «الجارديان» في المملكة المتحدة بأن وكالة الأمن القومي الأمريكية 
تجمع بيانات cii jas‏ من عددٍ من شبكات الهواتف الكبرى في الولايات المتحدة. وسرعان ما Ciel‏ 
هذا التقرير الكشف عن برنامج يُسمّى بريزم» والذي كان يُستخدم في جمع بيانات من الإنترنت 
وتخزينهاء تتعلق بمواطنين أجانب يتواصلون مع أشخاص داخل الولايات المتحدة. بعد ذلك» ظهر 
عدد كبير Mea‏ من التسريبات التي تدين كلا من الولايات المتحدة والمملكة المتحدة . كان إدوارد 
سنودن» موظف شركة بوز ألين هاميلتون ومتعاقدًا مع وكالة الأمن القومي الأمريكية الذي يعمل في 
مركز هاواي للتشفير» هو مصدر هذه التسريبات التي أرسلها إلى إعلاميين Glog‏ أنه يمكنه الوثوق 


في أنهم لن ينشروها دون دراسة متأنية. لا يتسع المجال في هذا الكتاب لذكر دوافع سنودن والمسائل 
القانونية المتضمّنة» ولكن من الواضح أنه كان يعتقد أن ما بدأ كتجسّس مشروع على الدول الأخرى 
قد Cali‏ على نفسهء وأصبحت وكالة الأمن القومي الأمريكية تتجسّسء بطريقة غير قانونية» على 
جميع المواطنين الأمريكيين. 


توفر أداتا تجريف الويب» DownThemaAll‏ الذي هي ملحق متاح لمتصفح موزيلا فايرفوكس» 
وبرنامج dê‏ وسيلة للتنزيل السريع لكامل محتويات المواقع الإلكترونية أو غيرها من بيانات 
الويب. استخدم سنودن هدين التطبيقين» المتاحين للمستخدمين c oA!‏ لهم بالوصول إلى شبكات 
وكالة الأمن القومي السرية؛ في تنزيل كمياتٍ هائلة من المعلومات ونسخها. كما نقل كمياتِ ضخمة 
من البيانات الشديدة الحساسية من نظام كمبيوتر إلى آخر. ولكي يتمكن من القيام بذلك»ء كان يحاجة 
إلى أسماء المستخدمين وكلمات المرور التي يحتفظ بها مديرو الأنظمة Bale‏ ومن ثم تمكن من 
الوصول بسهولة إلى الكثير من المستندات السرية التي سرقهاء ولكن ليس جميعها. ولكي يحصل 
على المستندات الفائقة السرية» كان عليه استخدام تفاصيل المصادقة الخاصة بحسابات المستخدمين 
ذات المستوى الأعلى» الأمر الذي كان من المفترض أن تحول بروتوكولات الأمان دون حدوثه. 
ولكن» بما أنه Q^‏ أنشأ هذه الحسابات ويمتلك امتيازات مسئول النظام» كان يعلم تفاصيل هذه 
الحسابات. تمكن سنودن Lead‏ من إقناع موظف واحد على الأقل من موظفي وكالة الأمن القومي» 
ممن يملكون تصريحاتٍ أمنية أعلى مما يملكهاء بأن يخبروه بكلمات مرورهم. 


وأخيرّاء نسخ سنودن حوالي © ١,‏ مليون مستند فائق alts Ay pall‏ حوالي ٠‏ آلف مستندٍ منها (كإن 
سنودن يدرك أنه لا يجدر به نشر جميع المستندات Se ae as ee dug uad‏ 
بالمستندات التي يجب نشرها) إلى مراسلين صحفيين موثوقين» ولكن لم يُنشر من هذه المستندات إلا 
asc‏ قليل نسبيًا في نهاية المطاف. 


على الرغم من أن سنودن لم يُفصح أبدَا عن كامل التفاصيل» فيبدو أنه تمكن من نسخ البيانات على 
محركات أقراص Al gama‏ لم يواجه صعوبة في أخذها معه عند مغادرته العمل كل يوم. ومن celal)‏ 
أن الإجراءات الأمنية التي كان من شأنها أن تمنع سنودن من نقل هذه المستندات لم تكن كافية. كان 
من شأن التفتيش الجسدي البسيط عند الخروج من المُنشأة أن يكشف Gi‏ أجهزة محمولةء كما أن 
كاميرات المراقبة في المكاتب كانت ستشير إلى وجود نشاط مشبوه. في ديسمبر 01 رفع 
مجلس النواب الأمريكي النقاب عن مستند Qus:‏ سبتمبر ۰1 وكان جز ¢ كبير Aa laa‏ 
محجوبًاء Ali‏ سنودن كشخص Shy‏ كذلك طبيعة المستندات LAM‏ وتأثيرها. يتضح من هذا 
المستند Gf‏ وكالة الأمن القومي لم تطبّق إجراءاتٍ أمنيةً كافيةء ونتيجة لهذا بدأ تطبيق مبادرة تأمين 
الإنترنت منذ ذلك «cual‏ ولكنها لم تدخل حيز التنفيذ الكامل, 


كان سنودن يمتلك امتيازات مسئول نظام واسعةء ولكن طبقا للطبيعة الشديدة الحساسية للبيانات؛ 
كان السماح لشخص واحد بامتلاك حق الوصول الكامل إليها من دون وجود أي احتياطاتٍ أمرًا غير 
oda‏ على toil ac aan‏ هيا اخ duis Cela OU‏ حصي do‏ شار pied E‏ 
البيانات أو نقلها كافيًا gial‏ سنودن من نسخ الملفات بطريقة غير مشروعة. ومن الغريب يسا أن 
سنودن تمكن من توصيل محرك أقراص «يو إس بي» (الناقل التسلسلي العام) ونسخ أي شيءٍ يريد. 


وكان من بين إجراءات الأمان البسيطة للغاية تعطيل منافذ «دي في دي» (أقراص الفيديو الرقمية) 
وهو ot‏ بي» (الناقل ie gp‏ أو عدم 5 O^ LenS‏ اا کان من شأن إضافة مصادقة 
ن حكن مهن الو عبيون إلى هده sadi‏ الفائقة uut 32d‏ الأمان teal nae‏ 
متطورة ويصعب اختراقها في حال استخدامها على النحو ا 


في أواخر 5 كان البحث ب «إدوارد سنودن» على محرك بحث dasa‏ يعطي أكثر من ۲۷ 
مليون نتيجة بحث خلال ما يزيد قليلا عن ثانية واحدة» وكان مصطلح البحث «سنودن» يعطي £o‏ 
مليون نتيجة بحث. وبما أن الكثير من هذه المواقع تمنح إمكانية الوصول إلى هذه المستندات 
المُسرّبة المُصنفة على أنها «سرية للغاية» أو تعرضهاء فقد أصبحت بالتأكيد في المجال العام 


Via ita ها‎ Sy did سيو‎ tod E oe il ule 


ويكيليكس 


ويكيليكس هي منظمة ضخمة لكشف الفساد والإبلاغ عن المخالفات عبر الإنترنت» تهدف إلى نشر 
المستندات السرية. de‏ المنظمة بالتبرعات» وأغلب العاملين بها من المتطوّعينء» ولكن يبدو أنها 
تركف هك | CARNET‏ امن EO RETE TO ea‏ 65 ؛ زعمت ويكيليكس أنها نشرت (أو 
سرّبت) أكثر من ٠١‏ ملايين مستند. تحافظ ويكيليكس على صورتها العامة الجيدة عبر موقعها ومن 
خلال موقعَي تويتر وفيسبوك. 


SA PONE.‏ المثيرة ة للجدل» ورئيسُها جوليان أسانج عناوينَ الصحف في ۲ أكتوبر 
2٠‏ عندما نشرت كمية كبيرة للغاية من البيانات السرية» Aaii YAYAYY‏ تحت عنوان 
«سجلات حرب العراق». جاءت هذه المستندات بعد مستنداتٍ يبلغ عددها حوالي call Yo‏ مستند 


تتألف منها «يوميات الحرب الأفغانية» التي تسرّبت بالفعل في YO‏ يوليو ٠٠٠١‏ 


كان أحد جنود الجيش الأمريكيء برادلي مانينج» هو المسئول عن كلا التسريبين. كان الجندي يعمل 
محللا استخباراتيًا في العراق» وأخذ معه قرصًا مدمجًا إلى العملء ونسخ مستنداتٍ سرية من جهاز 
كمبيوتر شخصي من المفترض أنه آمن. بسبب هذا الفعل» > حُكم على برادلي مانينج» الذي يُعرف 
الآن باسم تشيلسي مانينج (بعد ت تحوله جنسيًا)» في ٠١١‏ بالسجن لمدة Ule Yo‏ بعد إدانته من قبل 
المحكمة العسكرية لانتهاكه قانون التجسّس وجرائم أخرى Ala GIS‏ وخفف Quai ll‏ الأمريكي 
السابق باراك أوباما الحُكم على تشيلسي مانينج في يناير Ve lV‏ قبل ترك منصبه. وأطلق سراح 
الآنسة مانينج» التي كانت تعالج من اضطراب الهوية الجنسية أثناء فترة حبسهاء ee‏ 
Yeayy‏ 


على, الرغم من الانتقادات الشديدة التي Coa’‏ لها منظمة ويكيليكس من السياسيين والحكومات؛ 
وجريدة «ذي إيكونوميست» عام A‏ » ضمن قائمة مطوّلة من المنظمات الأخرى. طبقا لموقع 
ويكيليكس» eol‏ جوليان أسانج لجائزة نوبل للسلام لستة أعوام متتالية» من ۰ Y yo ui‏ 
تفصح لجنة جائزة نوبل عن أسماء المُرشحين لنيلها إلا بعد مرور i «le o.‏ أعضاء iial‏ 
الترشيح» الذين يتعيّن عليهم lul‏ المعايير الصارمة للجنة جائزة السلام» فغالبًا ما يفصحون عن 
أسماء مُرَشْحِيهم Mile‏ على سبيل «QUAM‏ في ۱ رشح جوليان أسانج من قبل البرلماني 
النرويجي سنور فالن دعمًا منه لمنظمة ويكيليكس على كشفها للانتهاكات المزعومة لحقوق الإنسان. 
وفي 9« (Y‏ حصل أسانج على دعم عضو مجلس النواب البريطاني السابق جورج جالوي» وفي 
أوائل ۲١٠١‏ نادى فريق دعم من الأكاديميين بحصول أسانج على الجائزة. 


ولكن» بحلول نهاية ٠۲۰۱٠‏ تحوّلت ol YI‏ ضد أسانج وويكيليكسء وهو ما يُعزى جزئيًا على Jil‏ 
تقدير إلى مزاعم التحيّز في تقاريرها. استندت الاعتراضات المُثارة ضد ويكيليكس إلى مخاوف 
متعلفة gaa‏ الأفراد وخصوصيتهم» وخصوصية المؤسسات» والسرية الحكومية» وحماية المصادر 
المحلية في مناطق النزاعات» والمصلحة العامة ple da p‏ ثم ازدادت الأوضاع تعقيدًا بالنسبة إلى 
جوليان أسانج وويكيليكس. على سبيل المثال» في ٠۲١٠١‏ سُرّبَت رسائل إلكترونية في أنسب وقتٍ 
للإضرار بترشح هيلاري كلينتون للرئاسة» الأمر الذي أثار GY glad‏ تتعلق بموضوعية ويكيليكس» 
وأثار انتقاداتِ كبيرة من عدد من المصادر التي تحظى باحترام كبير. 


بغض النظر عمًا إذا كنت من المؤيّدين لأفعال جوليان أسانج وويكيليكس أو المعارضين لهاء ولا 
شك أن هذا هو حال الناس Gya‏ حيث تاين ay J‏ تجاه القضية المطروحة؛ فإن أحد pal‏ الأسئلة 
الفنية المهمة هو ما إذا كان من الممكن GE) lis‏ موقع ويكيليكس al‏ لا. بما أن ويكيليكس تحتفظ 
ببياناتها على العديد من الخوادم في جميع أنحاء العالم» بعضها في بلدان متعاطفة معهاء فمن غير 
المرجّح أن (al‏ الموقع بالكاملء حتى وإن افترضنا أن وجوده غير مرغوب فيه. ولكن» إمعانًا في 
الحماية من الهجمات الانتقامية بعد كل تسريب» أصدرت ويكيليكس ملف تأمين. يتمثل الهدف غير 
المُفصح عنه لهذا الملف في أنه في حال حدوث أي شيءٍ لأسانج أو GUE)‏ موقع ويكيليكس كبرت 
Ua y‏ مفتاح التشفير الخاص بملف التأمين ليصبح متاحًا على الملا. يستخدم أحدث ملف تأمين من 
ويكيليكس bea‏ التشفير المتقدّم بمفتاح تشفير 57 "بت؛ ومن i‏ فمن غير المرجّح بدرجة كبيرة أن 
يتعرّض للاختراق. 


Gs‏ خلافٌ بين إدوارد سنودن وويكيليكس Yet ale Ma‏ وف الأمر بالطريقة التي اتبعها كل 
منهما في إدارة تسريبات البيانات . كان سنودن قد gle‏ ملفاته إلى صحفيين موثوقين انتقو ا gt‏ 
المستندات التي يجب تسريبها. كما Ahi‏ مسئولون حكوميون أمريكيون بالأمر es Usa‏ على 
نصائحهم» لم یسرب المزيد من المستندات بسبب مخاوف تتعلق بالأمن القومي. وحتى يومنا هذاء 
ثمة الكثير من المستندات التي لم يُفصّح عنها. ولكن» يبدو أن ويكيليكس تنشر بياناتها من دون أن 
تبذل جهدًا كبيرًا لحماية المعلومات الشخصية. ولا تزال ويكيليكس تسعى إلى جمع المعلومات من 


“sw 07 


كاشفي الفسادء ولكن» > لم تعد موثوقية تسريبات البيانات الأخيرة واضحة» أو ما إذا كان اختيار 
المعلومات التي تقدّمها تشير إلى أنها نزيهة بالكامل. تنشر ويكيليكس» على cleri ga‏ تعليماتٍ تتعلق 


بكيفية استخدام آلية تسمّى تور )54 45 الطبقات» أو حرفيًا «الموجّه البَصّلي») في إرسال البيانات 
دون الكشف عن الهوية وضمان iua paill‏ ولكن» لا يشترط بالضرورة أن تكون كاشفت فسادٍ 
لكي تستخدم هذه الآلية. 


متصفح تور والويب المظلم 


تجرية شخصية Ug JB‏ كانت سنتمكن من lid‏ مسال حملها ميا هن المسوفين عبر الإنتردت؟ 
ومن ثمَّ منع أن تصبح معلوماتها الشخصية جزءًا من البيانات الضخمة. في pth lie‏ في Alas‏ 
«تايم» في مايو VE‏ » قصّت د . فيرتيسي تجربتها. كانت قد اتخذت معايير خصوصية استثنائية 
شملت تجنب شبكات التواصل الاجتماعي» ونزلت متصفح ثور وإستخدمته في طلب الكثير من 
أغراض الأطفال» ودفعت مقابل مشترياتها من المتاجر نقدَارٍ كان كل ما فعلته قانونيًا تمامّاء ولكنها 
استنتجت في نهاية المطاف أن اختيار عدم المشاركة yal‏ مكلف ويستهلك الكثير من الوقت» وجعلها 
تبدوء طبقا لكلماتهاء «مواطنة سيئة». ولكن» يستحق متصفح ثور أن نتناوله بالبحث وبالدراسة» 
خاصة أنه جعل الدكتورة فيرتيسي تشعر بالأمان وتحافظ على خصوصيتها من بر امج OR‏ 


متصفح ثور عبارة عن شبكة مُشفرة من الخوادم أنشأتها البحرية الأمريكية في الأساس من أجل 
توفير طريقة لاستخدام im 2i‏ دون الكشف عن الهوية؛ ومن el caia e‏ وجمع البيانات 
الشخصية. ومتصفح تور مشروعٌ مستمر يهدف إلى تطوير وتحسين بيئات إخفاء الهويات عبر 
الإنترنت المفتوحة المصدرء والتي يمكن GY‏ من المهتمين بالخصوصية استخدامها. يعمل البرنامج 
oe‏ طريق à‏ تشفير بياناتك» بما في ذلك Ul sie‏ الإرسالء ثم يجهلها عبر إزالة جزء من العنوان» بما 
في ذلك عنوان بروتوكول الإنترنت بالأساس؛ ول تعفر رمك DOS Genie sux‏ 
ail‏ العكسي ely‏ على هذه المعلومات. بعد ذلك» توجّه خزمة البيانات الناتجة عبر نظام من 
الخوادم أو eco A‏ التي يستضيفها متطوّعونء قبل أن تصل إلى وجهتها الأخيرة. 


تتمتل أوجه الاستخدام الإيجابية لمتصفح تور في استخداماته من قبل قوات البحرية الأمريكية الذين 
d paaa‏ في الأساس» وصحفيي التحقيقات الذين يرغبون في حماية مصادرهم agila la s‏ 
والمواطنين العاديين الذين يرغبون في حماية خصوصيتهم. تستخدم الشركات متصفح ثور من أجل 
الاحتفاظ بالأسرار التجارية وإخفائها عن الشركات qs AY)‏ وتستخدمه الحكومات في حماية 
مصادر المعلومات الحسّاسة بالإضافة إلى المعلومات نفسها. Gly aid‏ صحفي عن مشرو ع متصفح 
تور قائمة ببعض المواد الإخبارية التي تضمّنت متصفح تور خلال الفترة ة ما بين 6468 IDA a‏ 


Us‏ عن أوجه الاستخدام السلبية» فقد استخدم المجرمون الإلكترونيون شبكة تور لإخفاء هُوياتهم على 
نطاق واسع. ويمكن الوصول إلى المواقع الإلكترونية عبر الخدمات التي جرى إخفاؤها بواسطة 
برنامج ثور والتي تحتوي على اللاحقة الإنجليزية onion,‏ الكثير من هذه المواقع بغيضة للغاية؛ 
Ly‏ في ذلك المواقع غير القانونية على الويب المظلم» والتي تُستخدم في تجارة المخدرات» 


والإباحية» وغسل الأموال. على سبيل المثال» كان الوصول إلى موقع BORA, («355) dla»‏ 

من الويب المظلم» ويشتهر بأنه منصة لبيع المخدرات وتوريد العقاقير gud shall‏ عبر متصفح 
تورث ها Ga‏ على SU Giga‏ الارن Ax‏ بعد القبض على روس ويليام أولبريختء كانت هناك 
محاكمة قضائية كبرى وأدين بعد ذلك يتهمتي إنشاء موقع Ala»‏ روود» وإدارته» تحت الاسم 
المستعار «القبطان الرهيب روبرتس». أغلق الموقع ولكنه عاود الظهور من جديدء وفي ٠١٠٠١‏ 
ظهرت نسخته الثالثة الجديدة تحت اسم «سيلك روود ۰,"». 


الويب الخفي 


يشير الويت الففي أن العميق (ديب ويب) إلى جميع المواقع التي لا يمكن فهرستها بواسطة 
محركات البحث المعتادة مثل جوجل» وبينج» وياهو. ويتضمن مواقع مشروعة بالإضافة إلى 
المواقع التي يتكوّن منها الويب المظلم (دارك ويب). وتشير التقديرات إلى أن الويب العميق أكبر 
بكثير من الويب السطحي المألوف» ولكن يظل من الصعب تقدير حجم هذا العالم الخفي من البيانات 
الخ plastids (a‏ محر CIS‏ بحت مخخضية الروت cgi‏ 


الفصل الثامن 
البيانات الضخمة والمجتمع 


٠۹۳۰ عالم الاقتصاد البارز جون مينارد كينز خلال الكساد الاقتصادي البريطاني في‎ Guus ais 
الزمن. خلقت الثورة الصناعية وظائف جديدة في‎ DADA بعد‎ aia ستبدو عليه الحياة‎ Ly 
وغيّرت المجتمع الذي كان زراعيًا في الأساس. كان يُعتقد أن الأعمال‎ cuna المصانع محورها‎ 
التي تتطلب عددًا كبيرًا من العمالة ستؤديها الآلات في نهاية المطافء الأمر الذي سيؤدي بالبعض‎ 
بوجه‎ ga من أيام الأسبوع. كان كينز‎ ls إلى البطالة» وبالبعض الآخر إلى العمل لعدد قليل‎ 
خاص بكيفية استخدام الناس لأوقات الفراغ الأطول بعد أن تحرّرهم التطورات التقنية من قيود‎ 
للعمل مقابل أجر. ربما كانت المسألة الأكثر إلحاحًا هي مسألة الدعم المالي التي‎ AALI المتطلبات‎ 
الوظائف‎ ose وسيلة لمواكية اتخفاض‎ hor أن‎ ULE تؤدي إلى الاقتراح يأ فخلا اساسا شاملا من‎ 
المتاحة‎ 


شهدنا تدريجيّا» على مدار القرن العشرين» aac T‏ الوظائف في مجال الصناعة بسبب الآلات 
الأكثر تطوّرّاء وعلى الرغم من أن الكثير من خطوط الإنتاج» على سبيل المثال؛ قد أصبحت آلية 
بالكامل Ma‏ عقودء فإن أسبوع العمل الذي يستمر لخمس عشرة ساعة فقط الذي Gn‏ به كينز لم 
يتحقق» ويبدو أنه كان من المُستبعد أن يتحقق في المستقبل القريب. لا شك في أن الثورة الرقمية 
nha‏ من Daal Bad]‏ مثلما فعلت الثورة الصناعية تمامّاء ولكن بطرِقٍ من المُستبعد أن نتمكن 

من التنبؤ بها بدقة. ومع تطوّر تقنية «إنترنت الأشياء»» أصبح اعتماد Galle‏ على البيانات في تزايد. 
سيلعب استخدام نتائج تحليل البيانات الضخمة في الوقت الحقيقي في اتخاذ القرارات والإجراءات 
دورًا تزداد أهميته في مجتمعنا Ú gs‏ بعد يوم. 


ARS‏ مقترحات تقول أن كوو البشر سيقتصر فقط على صناعة الآلات وبرمجتهاء ولكن هذا محض 
تخمين» كما أن هذا المجال» على أي حال؛ من مجالات العمل المتخصّصة التي يمكننا أن نتوقع على 
نحو واقعي أن نرى الروبوتات تستبدل dl‏ فيها. على سبيل المثال» diju‏ التشخيص الطبي الآلي 
E iine =o‏ “ومن المرجح أن يفعل الجراحون الاليونء دوق ra MCA‏ 
ی Rte Re nce ne MAT MP ern IO‏ 
إلى جهاز آلي أم إلى طبيب» على الأقل عندما لا نتحدّث إليه وجهًا لوجه. 


ولكن» من الصعب التنبؤ بالوظائف التي سيؤديها البشر في حال سيطرت الروبوتات علي الكثير من 
الأدوار الحالية . من المفترض أن يكون الابتكار مجالا feds‏ البشر دون غير ‘ad‏ إلا c‏ علماء في 
مجال الكمبيوتر» يعملون بالتعاون فيما agin‏ في جامعتي كامبريدج وآبريستويثء طوّروا ÚJ Ladle‏ 


al الجينوم واختبارهاء الأمر الذي‎ ale آدم في وضع فرضياتِ جديدة في مجال‎ aad آدم.‎ o gani 
أكبر عندما نج فريق من جامعة‎ asi جديدة. وشهدت الأبحاث في هذا لمجال‎ dade إلى اكتشافاتِ‎ 
كلا‎ Gib مانشستر في تطوير إيف» وهو روبوت يعمل على تصميم عقاقير للأمراض الاستوائية.‎ 
المشروعين أساليبَ الذكاء الاصطناعي.‎ 


«uil s و الما غر‎ cd sali ZUG فين‎ fad gods ela ذات‎ tel ule Gul oll dels (lat 
ولكن حتى هذا المجال الإبداعي لم يسلم من غزو الروبوتات. تقبل جائزة نيكي هوشي شينيشي‎ 
رواياتِ‎ e) اجتازت‎ Tt الأدبية رواياتٍ ألقها أو شارك في تأليفها مؤلفون غير بشريين. في‎ 
اشترك في تأليفها مؤلفون من البشر وأجهزة الكمبيوتر المرحلة الأولى من المسابقة» من دون أن‎ 

يعلم الحُكام Lind‏ عن تفاصيل تأليفها. 


إلى e‏ ر البيئة TM EE ees RT‏ 
وذلك من خلال الأجهزة الذكية. 


المركبات الذكية 


في ۷ ديسمبر ٠٠‏ أعلنت أمازون أنها نجحت في جعل طائرتها الأولى من دون طيّار لتوصيل 
الطلبات التجاريةء تشق طريقها مسترشدة بنظام تحديد المواقع العالمي (جي بي إس). تسلم صاحبُ 
الطلب» وهو رجل يعيش في الريف بالقرب من كامبريدج في المملكة المتحدة» طردا يزن 4,7 
أرطال. يستفيد ll.‏ من خدمة توصيل الطلبات باستخدام طائراتِ من دون Gb‏ عميلان فقط من 
عملاء خدمة أمازون برايم إيرء وكلاهما يعيشان ضمن مساحة تبلغ 5,7 أميال فقط من مركز 
التوزيع بالقرب من كامبريدج. ثمّة مقطع فيديو يعرض هذه الرحلة الجويةء وقد أشرنا إليه في قسم 
«قراءات إضافية». يبدو أن هذه الخدمة قد تكون إشارة البدء بجمع البيانات الضخمة من أجل هذا 
اكد 


Bu وي ا او‎ cT ods في‎ OK 
من المشروعات‎ Me حدود منطقة على مسافاتِ صغيرة من مقرها في نيوزيلنداء كما كان يوجد‎ 
المشابهة في أماكن أخرى. يبدو حاليًا أن خدمات التوصيل باستخدام طائراتِ من دون طيّار ستزداد»‎ 
أو‎ Gis SS خاصة في الأماكن المنعزلة حيث يمكن إدارة مسائل الخصوصية. لا شك أن هجومًا‎ 
SET حتى عطلا في الأنظمة الحاسوبية من شأنه أن يتسبّب في فوضى عارمة:‎ 
أو الحيوانات» كما‎ 2538s JH d cis a al steele (Sis مر دوع‎ 8 osos 

أنها قد تتسبّب في إلحاق أضرار جسيمة بالممتلكات. 00( 


هذا ما حدث عندما تمّت السيطرة عن بُعد علي البرنامج الذي يتحكم في سيارة تسير على الطريق 
بسرعة ٠‏ ميلا في cYe lo T Ac LA‏ قدم خبيران أمنيان» تشارلي ميلر وكريس فالاسيك» 
يعملان في مجلة «وايرد»» عرضًا على متطوّع لإثبات أن «يوكونيكت» «Uconnect‏ وهي لوحة 
Gls gles‏ حاسوبية تُستخدم في توصيل السيارة بالإنترنت» يمكن اختراقها عن ax)‏ أثناء تحرّك 
السيارة. كانت نتائج التقرير مقلقة؛ فقد تمكن المخترقان الخبيران من استخدام كمبيوتر محمول 
pos eo ut d‏ 

نقل الحركة» ووظائف أخرى أقل أهمية مثل مكيّف الهواء والراديو. كانت السيارة الجيب تتحرّك 
بسرعة "٠‏ ميلا في الساعة في طريق عام مزدحم عندما تعطلت استجابة دواسة السرعة تماما 
الأمر الذي أفزع السائق كثيرًا. 


١ ,٤ لهذا الاختبار» أصدرت شركة كرايسلر العاملة في مجال تصنيع السيارات تحذيرًا إلى‎ scis 
مليون مالك سيارة وأرسلت إليهم محركات أقراص «يو إس بي» تحتوي على تحديثات برامج‎ 
في لوحة المعلومات. نجحَ هذا الهجوم بسبب ثغرة أمنية في شبكة الهواتف الذكية‎ Mia لتثبيتها عبر‎ 
إصلاحها بعد ذلك؛ ولكنء توضّح هذه القصة ضرورة التعامل مع فكرة احتمالية حدوث هجماتٍ‎ d 
Qa Sla متداولة‎ A ill هذه‎ eua الذكية قل أن‎ CLS yall الكترونية على‎ 


يبدو أن خلول LS yall‏ الذاتية القيادة» بدءًا من السيارات إلى الطائرات» A‏ حتمى. أصبحت 
الطائرات تطير ذاتيًا بالفعل» بما في ذلك الإقلاع والهبوط. وعلى الرغم من أن فكرة استخدام 
طائراتِ من دون طيّار في نقل البشر على نطاق واسع مُستبعّدة» فإنها تستخدم Úlla‏ في الزراعة في 
عملية الرش الذكي للمحاصيل» وكذلك في الأغراض العسكرية. ربما لا تزال المركبات الذكية في 
la kh dal ys‏ الأولى لاستخدامها في الأغراض PUN‏ ولكن» أصبحت الأجهزة الذكية بالفعل 
جزءًا من المنازل الحديثة. 


J ial‏ الذكية 


كما ذكرنا في الفصل الثالثء يُعَد مصطلح «إنترنت الأشياء» طريقة ملائمة للإشارة إلى الأعداد 
الهائلة من Laka! Sigal‏ الإلكترونية المتصلة Coy‏ على سبيل: Had‏ يعد Gi‏ جهار 
إلكتروني يمكن تركيبه في المنزل والتحكم فيه عن بُعده من خلال واجهة مستخدم يستعرضها قاطن 
المنزل عبر التلفزيون أو الهاتف الذكي أو الكمبيوتر المحمول» HOSS Glew‏ ومن ثمَّ يكون جزءًا من 
إنترنت الأشياء ciis,‏ نقاط تحكم مركزية تعمل بالصوت في الكثير من المنازل» والتي تتحكم في 
الإنارة» والتدفئة» وأبواب المرائب» والكثير من الأجهزة المنزلية الأخرى. يعني الاتصال بالواي 
فاي (تشير إلى «دقة النقل اللاسلكي»»› أو القدرة على الاتصال بشبكات» على غرار الإنترنت» 
باستخدام موجات الراديو You‏ من الأسلاك) أنه يمكنك أن تسأل مكبر الصوت الذكي (عن طريق أن 
تدعوه بالاسم الذي ستطلقه (ade‏ عن حالة الطقس المحلي أو التقارير الإخبارية الوطنية. 


ex‏ هذه الأجهزة خدماتٍ تستند إلى السحابة بالإلكترونية» وهي لا تخلو من العيوب فيما يتعلق 
بالخصوصية. طالما أنّ الجهاز قيد التشغيل؛ » فكل ما تقول يُسجَّل ويُخزن في خادم بعيد . خلال تحقيق 
في جريمة قتل حدثت ya‏ 158 طلبت الشرطة في الولايات المتحدة من شركة أمازون أن تفصح عن 
sal aaa:‏ أجهزة إيكو Gall)‏ يعمل بالتحكم § فى الصوت ويتصل بخدمة مساعد أليكسا الصوتى 

لتشغيل الموسيقى» والتزويد بالمعلومات» والتقارير الإخبارية» وما إلى ذلك) اعتقادًا lei zm‏ 
greene‏ فى liic‏ لم توافق شركة أمازون على فعل ذلك في البداية إلا أن المشتبه به Gal‏ لها 
بالإفصاح عن التسجيلات أملا في أنها ستساعد في إثبات براءته. 


سيؤدّي المزيد من التطورء بناءً على الحوسبة السحابية» إلى أن تصبح الأجهزة الكهربائية مثل 
ec Lax‏ والثلاجات» وروبوتات التنظيف المنزلية جزءًا من المنزل ex FEN‏ التحكم فيها عن 
ax‏ عبر الهواتف الذكية, أو أجهزة الكمبيوتر المحمولة» أو مكبّرات الصوت المنزلية. وبما أنه يتم 
ECT‏ في حيدم هذه RR‏ عرو WRN‏ فق eds c‏ كرون عرد adl‏ ,هن اکل 
المخترقين؛ ومن ثم فإن الأمن مجال مهم يستوجب البحث. 


حتى لعب JULY!‏ ليست مُحككة فق Cua RS‏ يمية ASS‏ دعن cada «OUS Lupe‏ :لقت 
A nu oe‏ اتحاد لندن | e See‏ اللاختراق بم بعد x‏ لفك 
ويسمع إجاباتها. cha‏ الوكالة الاتحادية للشبكات في ألمانياء المسئولة عن مراقبة الاتصالات عبر 
ae ge jun NEA‏ اپ uil‏ ^€ چا tall‏ بسبب ما تمثله من ps‏ على 
إجابات غير ue.‏ بما في ذلك كلمات من قائمة الكلمات المحظورة Gis ET‏ الشركة 
المُصدّعة 


المدن الذكية 


على الرغم من أن المنازل الذكية بدأت في التحؤّل إلى ed‏ $ فمن المتوقع أن sa‏ إنترنت الأشياء 
بالإضافة إلى الأساليب المتعدّدة ة لتكنولوجيا المعلومات والاتصالات — المدن الذكية إلى واقع. 
بدأت الكثير من الدول» Le‏ فيها الهندء وأيرلنداء والمملكة المتحدة» وكوريا الجنوبية» والصينء 
وسنغافورة» في تصميم مدن ذكية بالفعل. تدور فكرة (Qual‏ الذكية حول تحقيق فاعلية أكبر في عالم 
اليوم المزدحم» وفي ظل النمو المطرد للمدن. Jus‏ انتقال سكان الريف إلى المدن معدلات ارتفاع 
PE «YO. Ends E E‏ 
تدقع تقنية المدن الذكية roe‏ المنفصلة المتراكمة من التطبيقات السابقة لإنترنت الأشياء وأساليب 
إدارة البيانات الضخمة. على سبيل المثال» ستكون السيارات من دون سائقء والمتابعة الصحية عن 
بُعدء والمنازل الذكية» والعمل عن aed‏ من سمات المدينة الذكية. ستعتمد هذه المدينة على إدارة 


وتحليل البيانات الضخمة المُجمّعَة من جميع أجهزة الاستشعار الهائلة العدد في المدينة. ومن «E‏ فإن 
البيانات الضخمة وإنترنت الأشياء Les‏ هما جوهر المدن الذكية. 


ge Ll‏ أوجه النفع التي تعود ar s‏ » فلعل نظام الطاقة الذكي أحدها . من شأن هذا النظام 
أن ينظم إضاءة الشوارع» ومراقبة المرورء ب بل ومتابعة جمع القمامة. ويمكن تحقيق هذا كله من 
خلال تركيب عدد hla‏ من بطاقات تحديد الهوية بموجات الراديو وأجهزة استشعار لا سلكية في 

أنحاء المدينة Cua,‏ هذه (Adsl‏ المكوّنة من شريحة دقيقة وهوائي صغيرء البيانات من 
الأحينة ل إلى فر قم مو رى لتعليلها ل تيل ف يمكن لإدارة المدينة أن تتابع الحالة 
المرورية عن طريق تركيب بطاقات تحديد الهوية بموجات الراديو في السيارات» وكذلك كاميرات 
رقمية في الشوارع. وسيكون الأمان الشخصي المُحسّن أحد الاعتبارات أيضًا؛ إذ يمكن على سبيل 
المثال وضع بطاقاتِ مع الأطفال. سرا ومتابعتهم عبر الهاتف المحمول لأحد الوالدين أو كليهما. 
ستنتج أجهزة الاستشعار هذه كمدة Aa‏ من cilc‏ التي ستحتاج إلى متابعة وتحليل في الوقت 
الحقيقي عبر وحدة معالجة Gila‏ مركزية. ويمكن استخدامها بعد ذلك في مجموعة متنوّعة من 
الأغراض» بما في ذلك قياس معدل الانسياب المروريء وتحديد مواقع الاختناقات المرورية» 
واقتراح مساراتِ Abas‏ ولا شك أن Gal‏ البيانات يُشكل أهمية قصوى في هذا الإطار؛ فأي عطل أو 
اختراق كبير للنظام سيؤثر سريعًا في ثقة المواطنين. 


أنشبئت منطقة الأعمال الدولية في سونجدو بكوريا الجنوبية خصوصًا لتكون مدينة ذكية. ومن بين 
السمات الرئيسية لهذه المدينة أنها تحتوي على اتصال واسع النطاق بالإنترنت عبر الألياف 
الضوئية. وتُستخدم هذه التقنية الحديثة لضمان سرعة الوصول إلى السمات المرغوبة للمدينة ASI‏ 
كما أن المدن الذكية الجديدة مَصمّمة الحد من الآثار البيئية السلبيةء ما يجعلها نموذج المدن 
المستقبلية المستدامة . في حين أن الكثير من المدن الذكية» مثل سونجدوء صُمَّمَت وأنشِئنت خصوصًا 
لهذا الغرض» فإن المدن الحالية ستستلزم تحديث بنيتها التحتية تدريجيًا. 


في مايو CY Y‏ كشفت مبادرة النبض العالمي التابعة للأمم المتحدة» وهي مبادرة تهدف إلى 
الترويج لأبحاث البيانات الضخمة من أجل الصالح العالمي» النقابت عن مسابقتها المفتوحة تحت 
عنوان «مسابقة الأفكار العظيمة لعام SOM‏ : المدن المستدامة» للدول العشر الأعضاء في رابطة 
دول جنوب شرق أسيا ودولة كوريا. بحلول موعد المسابقة النهائي في شهر يونيو» جرى استلام 
أكثر من AGA Yos‏ وأعلِنَ عن الفائزين في العديد من الفئات في شهر أغسطس Yi Y‏ فازت 
دولة كوريا بالجائزة الكبرى على مقترحها لتحسين وسائل النقل والمواصلات العامة عن طريق 
aida‏ اك Maud SUN‏ :إلى SEAS aes, fast Gated Saal‏ 


استشر اف المستقبل 


ET uum icu i rm 


استرقنا النظر على بعض الجوانب في حياتنا التي تلعب البيانات الضخمة دورًا مهما في تشكيلهاء 
سواءٌ في الحاضر أو المستقبل. وعلى الرغم من أنه لا يمكننا أن نأمل في أن نغطي جميع الجوانب 
التي تؤثر فيها البيانات الضخمة في هذه المقدمة القصيرة» فقد تناولنا بعضًا من التطبيقات المتنوّعة 
التي تؤثر فينا بالفعل. 


ستزداد البيانات التي يُنتجها العالّم أكثر فأكثر. ولا شك في أن أساليب التعامل مع كل هذه البيانات 
بفاعلية وبطريقة مجدية ستظل موضوع الأبحاث ABSA‏ لا سيّما في مجال التحليل في الوقت 
الحقيقي. تشير ثورة البيانات الضخمة إلى بداية تغيير جذري في الطريقة التي يسير بها العالم» US s‏ 
هو الحال مع جميع مظاهر التقذم التقفني» > أصبح الأفراد» والعلماء» والحكومات؛ مجتمعين يتحمّلون 
مسئولية أخلاقية لضمان استخدامها على النحو الصحيح. البيانات الضخمة قوة. وإمكاناتها للخير 
هائلة Sy‏ ت Haru pals te Lal‏ 


جدول سعة التخزين بالبايت 


المصطلح معناه 
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